Page MenuHomePhabricator

Forma inposibleak bizidunetan
Open, Needs TriagePublic

Description

Forma inposible asko agertzen dira (bizidunak izen bizigabekoetan, adib. 'aulkirengandik')

Zehaztu behar da ea forma hau inposiblea den edo, sinpleki, ez probablea. Guztiak Elhuyarren datu-basetik igo dira, hau da, teorian posible diren forma guztiak dira. "Aulkirengandik" jartzen badut testu batean, ez du Xuxenek azpimarratzen, "inposible" hitza bai, ordea. Beraz, "aulkirengandik" teorian existitu daitekeen forma bat da.

Hauek guztiak ez badira zuzenak, eta kendu beharko balira, zer den kendu behar dena zehaztu beharko da eta zein irizpiderekin.

Related Objects

StatusSubtypeAssignedTask
OpenNone
OpenBUG REPORTNone
OpenNone

Event Timeline

Bai, oinarrizko galdera litzake (a) forma posible guztiak (aulkiarengandik bezalakoak) nahi ditugun, edo (b) inon agertzen diren formak, hau da, forma dokumentatuak. Ahotsak-ekoak dokumentatuak dira guztiak, baita ETC-koak ere.

(a) nahi badugu, askoz ere forma gehiago lirateke orain Wikidatan daudenak baino (aberastuak, aberastearen, aberastutakoan...)
(b) nahi badugu, ETC da ezagutzen dudan baliabiderik onena, Elhuyar webcorpusek forma ez estandar pilo bat dituzte eta

Ikuspuntu filologikotik, forma dokumentatuak biltzea (eta agertokietan anotatzea) interesgarriagoa da forma posibleak biltzea baino (horretarako xuxen zerrenda erabili ahal delako, horrelako formen hiztegi bat ez da ekarpen esanguratsua, eta forma posible guztiak biltzea ez da posible, euskararen kasuan, hainbat atzizki konbina ("aglutina") daitezkeelako).

Nik zera proposatzen dut: datuak.ahotsak.eus-en, forma dokumentatuak batu (ETC edo/eta beste baliabideetatik erauzita), ahotsak-eko forma dialektalekin lotzen saiatu, baita Wikidatakoekin ere. Gero ikusiko dugu denon artean nola irten den, eta zer nahi dugun Wikidatan jarri (edo, beharbada, kendu).

Nik uste bi gauza ezberdin ditugula. Alde batetik Wikidatan lexemetan aukera posible guztiak ditugu, Xuxenek egiten duen moduan. Noski, "guztiak" hori ez da posible, zuk diozun bezala, aglutinazioa dela eta posible delako deklinazio bikoitzak eta egitea, jada deklinatutako zerbait nominalizatuz.

Bestetik, zure proiektuan BENETAN erabiltzen diren hitzen erregistroa dugu. Biak erkatzea oso interesgarria iruditzen zait, eta horregatik uste dut forma dokumentatuak eta Wikidatakoak lotu beharko genituzkeela. Beste zerbaitekin (ETC) lotzeko aukera dagoela? Ba bikain, lotura gehiago. Baina guretzako Ahotsak eta Wikidata lotzea da funtsezko ariketa hemen.

Nik uste bi gauza ezberdin ditugula. Alde batetik Wikidatan lexemetan aukera posible guztiak ditugu, Xuxenek egiten duen moduan. Noski, "guztiak" hori ez da posible, zuk diozun bezala, aglutinazioa dela eta posible delako deklinazio bikoitzak eta egitea, jada deklinatutako zerbait nominalizatuz.

Hori da, forma posibleak multzo amaigabea dira. Forma dokumentatuak, aldiz, ez. Forma posibleak sortzea konputazionalki erraza da (nahiz eta 'overproduction' batera jausi, 'aulkiarengana' bezalakoak ere sortuz). Forma dokumentatuak biltzea, aldiz, ez da erraza. Beraz, bigarren aukera da ekarpen handiagoa, nire ustez, eta agian erabaki genezake wikidatan dokumentutako formak batu nahi ditugula, posibleak beharrean.

Bestetik, zure proiektuan BENETAN erabiltzen diren hitzen erregistroa dugu. Biak erkatzea oso interesgarria iruditzen zait, eta horregatik uste dut forma dokumentatuak eta Wikidatakoak lotu beharko genituzkeela. Beste zerbaitekin (ETC) lotzeko aukera dagoela? Ba bikain, lotura gehiago. Baina guretzako Ahotsak eta Wikidata lotzea da funtsezko ariketa hemen.

Ahotsak-eko forma asko eta askoren baliokidea ez dugu wikidatan topatuko, 'ertendakun'>'irtendakoan' hasierako gure adibidea, esaterako. Horregatik beharrezko ikusten dut Euskara Batuko formen hiztegia sortzea, corpusetatik, hor 'irtendakoan' bezalakoak agertuko dira eta. Eta 'aulkiarengana' bezalakoen auzia ere ebatziko dugu horrela: Baten batek erabili badu (poesia dela eta, adibidez), jasota izateko eskubidea du, eta inork ez badu erabili, ez dauka. Irizpide garbia iruditzen zait.

ETC da euskara batuko forma dokumentatuak lortzeko ezagutzen dudan baliabiderik onena; besterik badago, esadazue, mesedez!