Page MenuHomePhabricator

Erroreak wikidatako formetan
Open, Needs TriagePublicBUG REPORT

Description

Ahotsakeko formak wikidatako formekin lotzeko tresna bat idatzi dut. Ahotsakeko forma baten aurrean, tresnak wikidatako formak proposatzen ditu (levenshtein distance tixikiegia dutenak goian agertzen dira), eta mappinga (adib. "atsegingarriya" > "atsegingarria") eskuz balidatzen da.

Hainbat arazo topatu ditut wikidatako formetan:

  • aditz izena deklinaturik dator, hau da "esekitzea" jartzen du, "esekitze" beharrean
  • lexema batzuk bi aldiz agertzen dira (adib. 'aulki')
  • -tzen/ten alternantzia ez dago ondo (adib. 'aberastzen')
  • forma inposible asko agertzen dira (bizidunak izen bizigabekoetan, adib. 'aulkirengandik')
  • "bizigabe" ("inanimate") ezaugarria ez da modu koherentean agertzen, hau da, bizigabeko forma guztietan ez da agertzen. Bestalde, bizidun formak ez dute "bizidun" ezaugarririk.
  • maiztasun altuko forma asko ez dira agertzen ('antolatuta', 'antolatzeko',...)
  • Elhuyar hiztegian homografoak direnak (adib. aditu1, aditu2, baso1, baso2) korapilatuta daude, ez dakit zenbat kasutan. Baso: baso1 agertzen da (oihana), baso2 (edalontzia) ez da agertzen. Aditu: aditu adj eta aditu ize agertzen dira, aditu aditza ez da agertzen. Elhuyarren, ize eta adj batuta daude sarrera batean, eta aditzarena wikidatako izenean agertzen da.

Ahotsak-Wikidata formen arteko mappingak egin baino lehen, wikidatako formetan ordena jartzea komeni dela uste dut. Hainbat gai direnez, ez dakit nondik hasi...

Oro har uste dut dokumentutako formak agertu beharko liratekeela wikidatan, eta ez eskema estandar baten arabera sortutako "balizko" formak.