Ahotsak-eko eta ETC-ko formen arteko lotura definitzeko tresna bat idatzi dut.
Hau egiten du:
Ahotsak-eko forma "arboliakin" baldin bada, dagokion ahotsak-lema-aldaerari lotutako Euskara Batuko lemaren formak hartu eta Levenshtein distance bitartez konparatu egiten dira. Distance = 0 duen forma bakarra aurkitzen bada, hori hartzen da baliokidetzat, bestela zerrendatik aukeratu behar da forma eskuz.
Lotura gero honela adierazten da:
https://datuak.ahotsak.eus/wiki/Lexeme:L23521#F1
ETC formak ez daude ezaugarri gramatikalen arabera bereizita (ez Wikidatan egiten den moduan). Hau da, "neskak" (ABS PL) eta "neskak" (ERG SG) forma bat dira ahotsak-en eta ETC-n, eta Wikidatan bi dira. Wikidatan, gainera, mugagabeko formak sistematikoki bereizita daude, adib. F1-F2 eta F3-F4-F5 hemen.
Pentsatu beharko dugu nola jokatu horren aurrean.
Ideia da hainbat lotura eskuz esleitzea, eta horrekin ikasketa automatiko bat elikatzea, forma guztien loturak ebatz ditzan.