Page MenuHomePhabricator

Formak lotzeko tresna
Open, Needs TriagePublic

Description

Ahotsak-eko eta ETC-ko formen arteko lotura definitzeko tresna bat idatzi dut.

Hau egiten du:

Ahotsak-eko forma "arboliakin" baldin bada, dagokion ahotsak-lema-aldaerari lotutako Euskara Batuko lemaren formak hartu eta Levenshtein distance bitartez konparatu egiten dira. Distance = 0 duen forma bakarra aurkitzen bada, hori hartzen da baliokidetzat, bestela zerrendatik aukeratu behar da forma eskuz.

2021-07-16 14_24_08-Window.png (680×1 px, 31 KB)

Lotura gero honela adierazten da:

https://datuak.ahotsak.eus/wiki/Lexeme:L23521#F1

ETC formak ez daude ezaugarri gramatikalen arabera bereizita (ez Wikidatan egiten den moduan). Hau da, "neskak" (ABS PL) eta "neskak" (ERG SG) forma bat dira ahotsak-en eta ETC-n, eta Wikidatan bi dira. Wikidatan, gainera, mugagabeko formak sistematikoki bereizita daude, adib. F1-F2 eta F3-F4-F5 hemen.

Pentsatu beharko dugu nola jokatu horren aurrean.

Ideia da hainbat lotura eskuz esleitzea, eta horrekin ikasketa automatiko bat elikatzea, forma guztien loturak ebatz ditzan.

Related Objects

StatusSubtypeAssignedTask
OpenNone
OpenNone

Event Timeline

DL2204 updated the task description. (Show Details)
DL2204 updated the task description. (Show Details)