Euskal lokuzioen tratamendu konputazionala

Ruben URIZAR

Lagundu

Euskal Lokuzioen tratamendu konputazionala deritzon tesiaren laburpena duzu ondorengo hau. Iñaki Alegriaren eta Juan Carlos Odriozolaren zuzendaritzapean idatzia, 2012ko uztailaren 13an defendatu zen Euskal Herriko Unibertsitateko Euskal Filologia sailean.

1.- Sarrera

Hizkuntza konbinazio-sistema diskretua izanagatik, bere funtzionamendua ez dute bakarrik zehazten sistemaren arau libreek. Hiztunok askotariko hitz-konbinazio ihartuez baliatzen gara, geure hizkuntz jardunean. Konbinaziooi unitate fraseologikoak (UF) deritze. Bada, UFak oso ugariak dira hizkuntzetan eta berebiziko garrantzia dute hizkuntzaren jabetzan zein prozesaketan. UFen artean hiru multzo nagusi bereizten ditugu. Batetik, enuntziatu osoa eratzen dutenak ditugu, hau da, enuntziatu fraseologikoak. Bestetik, sintagmak osatzen dituztelarik, enuntziatuak eratu ahal izateko bestelako sintagma batzuekin konbinatu beharra dutenak. Horien artean, kolokazioak —hizkuntza-arauan finkatuak— eta lokuzioak —hizkuntza-sisteman finkatuak— bereizten dira.

Unitate Fraseologikoen sailkapen orokorra

Unitate Fraseologikoen sailkapen orokorra, Corpa Pastorretik (1996) egokitua.

Euskararen prozesamendu automatikoan, UFen tratamendua jorratu gabeko eremua zen. Hala bada, Hizkuntzaren Prozesamenduan ere hitz-konbinaziook unitate gisa ezagutzearen eta analizatzearen garrantziaz jabetuta, euskarazko lokuzioen prozesamendu automatikorako sistema bat garatzeko erronkari heldu diogu. Izan ere, euskararen prozesamendurako estrategian, UF guztietatik lokuzioek lehentasuna dutela iritzi zaio.

2.- Lokuzioen ezaugarritzea

Lokuzioak, hizkuntzaren sisteman finkaturiko unitateak dira, eta esaldiko elementu gisa funtzionatzen dute, enuntziatu osorik eratu gabe. Halaber, kolokazioetatik bereizteko ezaugarri nagusia egonkortasuna dute, bere alderdi lexiko-semantiko zein morfosintaktikotik.

Nahiz eta lokuzio prototipoen adibide gisa beti eman izan diren karga metaforikoa dutenak, eta horietatik parte handi bat hala diren (hanka sartu, zorri piztua), beste askok esanahi konposizionala dute (argi eta garbi, lan egin). Hizkuntzan esanahi-unitatearen jabe izateak ematen die finkotasun semantikoa lokuzioei.

Finkapen morfosintaktikoak osatzen du irizpide semantikoa, eta finkapen hori frogatzeko, zenbait proba ezarri ohi zaizkie lokuzio-hautagaiei. Esate baterako, lokuzioetan nekezago onartzen dira osagaien ordezkapenak (aurpegira bota > *begitartera bota), modifikazioa (*adar ederra jo diot), determinatzailea trukatzea (*adar bat jo dizut), erlatibizazioa (*jo dizudan adarra) edo pasibizazioa (*adarra nik zuri joa da). Lokuzio batzuk, gainera, gramatika-irregulartasunak dituzte, hala nola, determinatzailerik gabeko objektua (hitz egin, min hartu) edo beste inongo testuingurutan ageri ez diren hitzak dituzte (noizik behin, fio izan). Beste kasu batzuetan, konposatuaren aditzak azpikategorizazio-ezaugarri berria bereganatzen du, bere kabuz doanean ez daukana; berbarako, ekarri aditzak normalean ez du mendeko perpaus konpletiborik azpikategorizatzen; gogora ekarrik, aldiz, bai.

Lokuzioen azterketarako, aurrena kategoriaka sailkatu ditugu.

1. Izen-lokuzioak: a bildua, euskaldun berri
2. Aditz-lokuzioak: adarra jo, begi bistatik galdu
3. Adjektibo-lokuzioak: batez besteko, estatu batuar
4. Adberbio-lokuzioak: behin eta berriro, hurrenez hurren
5. Interjekzio-lokuzioak: baita zera ere, hor konpon
6. Zenbatzaile-lokuzioak: apur bat, makina bat
7. Izenordain-lokuzioak: gutiz gehienak, zer edo zer
8. Loturazko lokuzioak

  • Lokailu-lokuzioak: azken finean, hain zuzen ere
  • Juntagailu-lokuzioak: baita... ere, salbu eta
  • Menderagailu-lokuzioak: -(e)la eta, -tu baino lehen

9. Postposizio-lokuzioak: -(r)en arabera, -(r)i begira

Taula. Lokuzioen sailkapena, adibidez hornitua

Ondoren, lokuzio kategoria bakoitzaren deskripzioari ekin diogu. Lokuzioen lexikalizazio-prozesuan finkapen formalak berebiziko garrantzia izanik, eta, batez ere, horien prozesamendu automatikorako, ezinbestean gauzatze formalean oinarritu garelako, ezaugarri formalei eman diegu lehentasuna deskribapenean, alegia, osaerari eta osagaien aldagarritasun morfosintaktikoari. Nolanahi ere, lokuzioetan esanahi literalaren eta figuratiboaren arteko alternantzia gertatzen ote den ere aztertu dugu, esapideon prozesamendu automatikorako ezaugarri garrantzitsua baita.

3.- Euskararen prozesamendurako baliabideak: abiapuntua

Lokuzioen hizkuntza-deskripziorako, zenbait baliabide linguistiko erabili ditugu. Bada, tesian aztergai diren esapideen zerrendak osatzeko eta banakako lokuzioen deskripzioak egiteko, hiztegi eta corpus batzuk baliatu ditugu. Hiztegietan, Orotariko Euskal Hiztegia, Elhuyarren euskara/gaztelania hiztegi elebiduna, eta Hiztegi Batua erabili ditugu gehien. Corpusei dagokienez, XX. Mendeko Euskararen Corpus Estatistikoa eta Ereduzko Prosa Gaur baliatu ditugu batez ere.

Bestalde, euskarazko lokuzioen prozesamendurako, baliatu ditugu, besteak beste, IXA taldeak garaturiko tresnak —batez ere, MORFEUS analizatzaile morfosintaktikoa eta EDBL, Euskararen Datu-Base Lexikala— eta Murriztapen Gramatika (MG) formalismoa.

4.- UFak eta Hizkuntzaren Prozesamendua

Euskarazko lokuzioen artean, bi multzo nagusi bereizi ditugu, euren prozesamendurako bi bide ezberdin eskatzen dituzten aldetik. Batetik, osagai guztiak hitz beregainak dituzten lokuzioak ditugu, alegia, izen-, adjektibo-, adberbio-, aditz-, zenbatzaile-, izenordain-, lokailu-, juntagailu- eta interjekzio-lokuzioak.

Bestetik, osagaietako bat mendeko atzizkia duten lokuzioak daude, atzizkia lokuzioaren parte ez den elementu lexikal bati txertatzen baitzaio. Multzo horretakoak ditugu, postposizio-lokuzioak (lehen osagaia atzizki-postposizio bat baitute) eta menderagailu-lokuzioak (lehen osagaia aditz-morfema bat dutenak).

Argazkia: CC BY - Pedro Dias

Lokuzioak, hizkuntzaren sisteman finkaturiko unitateak dira, eta esaldiko elementu gisa funtzionatzen dute, enuntziatu osorik eratu gabe.
Argazkia: CC BY - Pedro Dias

4.1.- EDBLko lokuzioen prozesamendua

Lehenengo multzoko lokuzioen prozesamendurako, egoera finituetako sistema bat garatu dugu, osagaiek hitz bakun gisa duten analisietatik abiatuta (MORFEUS). Halaber, lokuzioen deskripzioa EDBL datu-basean egin da, gauzatze-eskemak izendatu ditugun zehaztapen batzuen bitartez.

Hasteko, aztergai ditugun lokuzioen zerrenda osatu dugu. Bada, EDBLn landu diren 2.200 bat lokuzioren zerrenda osatzeko bi iturri nagusi baliatu ditugu. Batetik, XX. Mendeko Euskararen Corpus Estatistikoa erabili dugu, eta bertan lematizaturiko UFen artean 20 aldiz edo gehiagotan ageri direnak hautatu ditugu. Bestetik, Hiztegi Batuaren 2000ko argitalpenetik hitz anitzeko sarrera guztiak ere hartu ditugu.

Ondoren, lokuzio horiek guztiak EDBL datu-basean deskribatzeko adierazpide orokor bat diseinatu dugu. Lokuzioak testuetan har ditzakeen azaleko gauzatze guztiak formalki kodetzea da deskripzioaren xedea. Horretarako, bada, honako informazio linguistiko hau zehaztu behar da datu-basearen taula ezberdinetan: sarrera, UFaren kategoria gramatikala, barne-osaketa, eta gauzatze-eskemak.

Barne-osaketaren taulan adierazten da zeintzuk diren UFaren osagaiak, eta zein osagaik ematen dion informazio morfologikoa unitate osoari. Gauzatze-eskemaren taulan, aldiz, patroien bidez deskribatzen da UFa zein forma desberdinetan gauzatu daitekeen testuetan. Patroi horiek zehazteko, flexio-murriztapenak (osagaien aldakuntza morfologikoen berri ematen dutenak) eta osagaien hurrenkera baliatzen ditugu; izan ere, euskaraz, perpaus-osagaien hurrenkera aski ‘librea’ izanik, aditz-lokuzio askotan, osagaien hurrenkera trukatu egin daiteke eta beste hitz batzuk tarteka daitezke lokuzioaren osagaien artean (gogora ekarri > ...ekartzen dit beti gogora).

Guztiarekin, gauzatze-eskemetan ezarritako baldintzak beteta ere, askotan ezin berma daiteke agerpen jakin bati lokuzio-interpretazioa ote dagokion, batez ere, osagaien hurrenkera trukaturik eta lokuzioz kanpoko hitzak tartekaturik agertzen den patroietan. Bada, kasu horietan lokuzioa ‘anbiguo’ gisa markatzen dugu anbiguotasun eremuan. Esaterako, (1) adibidean bat egiten hitz-segida bat egin aditz-esapidearen agerpena da; (2) adibideko bat egin, ostera, ez.

(1) ...txaloek eta oihuek airean bat egiten zutela, turutots bat aditu zen
(2) Emilek buruz baiezko keinu bat egin zuen...

Guztira, 145 flexio-murriztapen eta 177 gauzatze-eredu behar izan ditugu EDBLn landutako lokuzio guztiak deskribatzeko.

Datu-basean eginiko deskribapenetan oinarrituta, UFak (edo UF hautagaiak) detektatu eta analizatzen dituen HABIL tresna garatu dugu, UFen interpretazio guztien analisi morfosintaktikoak sortu eta katean integratzen dituena. Horretarako, lokuzioak identifikatu eta dagozkien interpretazioak esleitzen dizkie, datu-base lexikalean eginiko deskripzioetan oinarriturik.

Lokuzio anbiguoen desanbiguazioa

UFa anbiguoa denean, HABILek lokuzioari dagozkion interpretazioak eransten ditu, osagaiei dagozkienak ezabatu gabe. Une horretan, UF ‘hautagaiak’ besterik ez dira. Bada, hautagaiok zein testuingurutan diren egiaz lokuzio eta zeintzuetan ez diren ebatzi behar da ondoren.

Horretarako, MG formalismoan oinarrituriko gramatika bat garatzen ari gara. Ikerlan honetarako, XX. Mendeko Euskararen Corpus Estatistikoko 20 lokuzio anbiguorik usuenak desanbiguatzeko 111 erregelaz osaturiko gramatika bat garatu dugu, % 98,90eko estaldura eta % 98,88ko doitasuna duena.

4.2.- Postposizio-lokuzioen prozesamendua

Postposizio-lokuzioen prozesamenduari ekiteko, Euskaltzaindiaren gramatikan (1985), Villasanten (1978) eta Goenagan (2001) oinarritu gara. Iturriotan oinarriturik, 102 osagai aske bildu ditugu, 56 izen eta 46 adberbio. Osagai aske bakoitzak har ditzakeen flexioak eta izan ditzakeen osagarri ezberdinak konbinatuz, 472 aukera posible sor daitezke.

Gero, postposiziook testuetan identifikatuko dituen gramatika eraiki dugu, MG formalismoa baliatuta. Hala, 96 erregela parez osaturiko gramatika sortu dugu, % 92,99ko doitasuna duena.

4.3.- Menderagailu-lokuzioen prozesamendua

Menderagailu-lokuzioen tratamendurako jarraituriko prozesua postposizio-lokuzioen prozesamendurako jarraitu dugun bertsua da. Alabaina, menderagailuen zerrenda osatzeko gramatika-liburu bakarra baliatu dugu (Zubiri eta Zubiri, 2000). Hala, 184 lema (eta lema-multzo) bildu ditugu; horiekin sor daitezkeen konbinazio posibleak, berriz, 131 dira.

Bestalde, garaturiko gramatikak 94 islapen-erregela ditu.

Lagundu

Irakurleen iritziak:

comments powered by Disqus
Escribe

Lotutako artikuluak

Zure iritzia / Su opinión

Parte har ezazu

Sariak

  • Artetsu Saria 2005

    Arbaso Elkarteak Eusko Ikaskuntzari 2005eko Artetsu sarietako bat eman dio Euskonewseko Artisautza atalarengatik

  • Buber Saria 2003

    On line komunikabide onenari Buber Saria 2003. Euskonews

  • Argia Saria 1999

    Astekari elektronikoari Merezimenduzko Saria

Laguntzaileak
Gipuzkoako Foru AldundiaEusko Jaurlaritza
Eusko IkaskuntzaAsmozEuskomedia