Ahotsak-eko eta ETC-ko formen arteko lotura definitzeko tresna bat idatzi dut.
Hau egiten du:
Ahotsak-eko forma "arboliakin" baldin bada, dagokion ahotsak-lema-aldaerari lotutako Euskara Batuko lemaren formak hartu eta Levenshtein distance bitartez konparatu egiten dira. Distance = 0 duen forma bakarra aurkitzen bada, hori hartzen da baliokidetzat, bestela zerrendatik aukeratu behar da forma eskuz.
{F34553227}
Lotura gero honela adierazten da:
https://datuak.ahotsak.eus/wiki/Lexeme:L23521#F1
ETC formak ez daude ezaugarri gramatikalen arabera bereizita (hau da, ez Wikidatan egiten den moduan). Hau da, "neskak" (ABS PL) eta "neskak" (ERG SG) forma bat dira ahotsak-en eta ETC-n, eta Wikidatan bi dira. Wikidatan, gainera, mugagabeko formak daude sistematikoki, bereizita, adib. F1-F2 eta F3-F4-F5 [[ https://www.wikidata.org/wiki/Lexeme:L49203#F1 | hemen ]].
Pentsatu beharko dugu nola jokatu horren aurrean.