Page MenuHomePhabricator

Maiztasun handiko formak
Open, Needs TriagePublic

Description

Bi arazo daude hemen, soluzio ezberdina dutenak:

  • Igo ziren hitzak Elhuyarren ikasleen hiztegitik igo ziren, beraz baliteke egotea beste lexema batzuk ohikoak direnak eta hiztegi horretan ez daudenak. Hau da, ez ditugu berez Euskaltzaindiaren hiztegian agertzen diren hitz guztiak.
  • Bestetik, aditz forma nominalizatuen afera dago: euskaraz ia edozein aditz bilaka daiteke izen eta berriro ere deklinatu. Euskaltzaindiaren hiztegian ez da agertzen antolatuta, bai ordea antolatu. Antolatuta edo antolatutakoaren, antolatu aditzaren forma nominalizatuaren aldaerak dira, eta, beraz, beste POS bat izan beharko lukete Wikidatan, "antolatu" moduan, eta hori lotu "antolatu" aditzarekin.

Bi aferak bereiztea proposatzen dut, eta bakoitzarekin pentsatzea zer egin. Ez ditugun forma ohikoenak eta aditz nominalizatu ohikoak bereizten baditugu, igoera antolatu dezakegu.

Related Objects

StatusSubtypeAssignedTask
OpenNone
OpenBUG REPORTNone
OpenNone

Event Timeline

Igo ziren hitzak Elhuyarren ikasleen hiztegitik igo ziren, beraz baliteke egotea beste lexema batzuk ohikoak direnak eta hiztegi horretan ez daudenak. Hau da, ez ditugu berez Euskaltzaindiaren hiztegian agertzen diren hitz guztiak.

Nik badaukat 2010ko Hiztegi Batua (adiera gabekoa) XML-n, garai batean Euskaltzaindiaren webgunean deskargatzeko zegoena. Begiratuko dut ea horko lemaren bat ez dagoen wikidatan.

Bestetik, aditz forma nominalizatuen afera dago: euskaraz ia edozein aditz bilaka daiteke izen eta berriro ere deklinatu. Euskaltzaindiaren hiztegian ez da agertzen antolatuta, bai ordea antolatu. Antolatuta edo antolatutakoaren, antolatu aditzaren forma nominalizatuaren aldaerak dira, eta, beraz, beste POS bat izan beharko lukete Wikidatan, "antolatu" moduan, eta hori lotu "antolatu" aditzarekin.

  • "antolatu" partizipioa da, eta beraz, aditz forma, bai. Baina aditz formik ez du (aditz sintetikoa ez baita). Forma ia guztiak izenkienak bezalaxe deklinatzen dira ("adituko", "aditze" eta "aditzen" salbu). Bestetik, adjektiboen formak izenen formen berdinak dira, eta wikidatan bi aldiz agertzen dira horregatik, modu erredundantean. Ahotsak-en eta ETC-n, POS bereizketa ez dute egiten (hain zuzen horregatik).
  • Wikidatak lexema bati POS bakarra jartzera behartzen du... Baina "aditu" izena, "aditu" aditza, eta "aditu" adjektiboa, ez al dira lexema bera, forma berdinak badituzte, gainera?? POS da lexema batek egitura sintaktikoan (esaldian) hartzen duen rol bat. Hiztegian adierazi behar bada, adierengatik eta itzulpen-ordainengatik da ("aditu" izenak eta "aditu" adjektiboak ez dute adiera-deskripzio berdina ezta itzulpen berdina ere).
  • datuak.ahotsak.eus-en, ez dugu adierarik jartzen, hau da, POS bereizteko premiarik ez dago. Eta ezin da bereizi, gainera, ahotsak eta ETC-n ere bereizten ez baitira. Gauzak Wikidatara pasatzean, edo wikidatarekin lotzean, gure lexema (edo forma) bat baino gehiago lotuko da wikidatako entitate berera, Elhuyar hiztegi ID zenbakiekin gertatzen den bezalaxe (adjektiboa eta izena ID berera doaz).

Aditz forma horrekin forma nominalizatu bat sortuko genuke, adibidez honela:

https://www.wikidata.org/wiki/Lexeme:L222733 > P7706 > https://www.wikidata.org/wiki/Lexeme:L578533

Honela, aditz hori izen bezala (kasu honetan, adjektibo esango nuke) erabiltzen denean nola deklinatzen den ikusiko genuke. Badakit ikuspuntu filologikotik hau erredundantea dela, baina makina batentzat ez delako erabiltzen omen da horrela.

P7706-ean, euskarazko adibide bat dator, eta horrelaxe ondo dagoela uste dut:

Adierazi > P7706 nominalized form > adierazte (ez 'adieraztea')

Euskal Wordnet-en, berdina egin dute, aditz izenak sistematikoki izen gisa daude jasota, baina han behartuta zeuden ingelesezko izenkiak itzultzeko (adibide arraro xamarrak daude, adib. 'aldez aurretik pentsatze' edo '[[ URL | zeharka aipatze ]]', horrelako 737 bat daude EusWn-en.) Wikidatako ingelesezko 'premeditation' eta 'allusion'-ari itzulpena jarri nahi badiogu Wikidatan, horretarko behartuak izango gara gu ere. Izen-formak jasotzeko aditz izenak lexema propio gisa jasotzen badugu, beste arrazoi hori gehitu ahal zaio, beraz.

Elhuyar hiztegi elebidunaren lemategia baneukan, eta Hiztegi Batuan 4834 lema agertzen dira, Elhuyarren agertzen ez direnak. Hemen dago zerrenda; atzizkidun formak dira ia guztiak, -te/-tze asko tartean, baina baita ere -ar, -arazi, etc. Wikidatako lexemekin froga bera egingo dut, baina zerrenda antzekoa izango dela uste dut.

Ikusten dut gentilizio ugari ere badaudela zerrenda horretan. Gentilizioak, bere horretan, mugagabeak dira, eta hiztegietan badatoz ere, ez dakit noraino hedatu beharko genukeen Wikidatan hori. Ze noski, aaiundarrenganaino hitz posible bat da (eta Xuxenek ondo bezala markatzen du), baina ez dakit noraino beharko genukeen ere.