188 Zenbakia 2002-11-15 / 2002-11-22

Gaiak

Euskararen teknologia berritzailea garatzen

Institucional

Euskararen teknologia berritzailea garatzen Euskararen teknologia berritzailea garatzen * Eleka Ingenieritza Linguistikoa Ez dago zalantzarik lengoaia naturala gure eguneroko bizitzaren giltzarria dela. Ez eta esaten dugunean honen tratamendu konputazionala geroz eta garrantzitsuagoa bihurtzen ari dela. Egunetik egunera, datu base dokumentalak handitzen doaz, ordenagailuekin harremanak izateko erak aldatzen eta multimedia sistema guztiak digitalizatzen. Horren ondorioz, ezinbestekoa bihurtzen zaigu lengoaia naturala ere informatikoki lantzeko bideak aztertzea. Horiek horrela, gaur egun hizkuntzaren industria eta, bereziki, ingeniaritza linguistikoak berebiziko garrantzia du. Arlo horien ardura da informazioa berreskuratzea, iragaztea, informazio esanguratsua hautatzea eta edukiak kudeatzeko gero eta tresna hobeak sortu eta eskaintzea. Halaber, Europan estrategikoa bihurtzen ari den puntu baten aurrean gaude: ingeniaritza linguistiko bezala ezagutzen duguna Europako ikerketa programetan, estrategikotzat jotzen den arloa da: lengoaia naturalaren tratamendu informatizatua. Hainbat ikerketa lerro daude, eta horietako asko duela urte batzuk pentsaezina iruditzen zitzaigun punturaino aurreratuak daude. Dena den, Europan eta munduan egiten ari den lengoaia naturalaren ikerketa hizkuntza nagusiei bakarrik dagokie: besteak beste, ingelesa, alemana, gaztelania edo frantsesaren inguruan egindako ikerketa da alegia. Bide horretatik, hizkuntza nagusientzat era guztietako teknologia berriak ari dira garatzen, etorkizun hurbilean bideak zabalduko dituzten teknologiak. Lengoaia naturala da urte gutxi barru ordenagailu eta etxeko tresna guztiekin komunikatzeko izango dugun era, eta mugitzen ez bagara, harreman hori gurea ez den hizkuntza batean egin beharko dugu. Horregatik, hizkuntz teknologiaren munduan, eta bereziki euskararen kasuan egiteko dagoen lana ikusirik, Elhuyar eta IXA Taldea elkartu dira, eta urteetako esperientzia eta orain artean garatu duten teknologia uztartzeaerabaki dute ingeniaritza linguistikoan euskararen egoera hizkuntza nagusien pare jartzeko. Helburu horrekin sortu dute ELEKA ingeniaritza linguistikoa. ELEKAren helburua informazioaren teknologien alorrean euskara hizkuntza nagusien pare jartzea da. Horretaz gain, jakintza kudeatzen duten eta informazioaren teknologiak aplikatzen dituzten enpresa eta erakundeentzako I+G+B irtenbide eleanitzak eskaintzen ditu. Ingeniaritza linguistikoaren aplikazioa Esan bezala, merkatuan aurki daitezkeen aplikazio gehienek hizkuntza "handiak" dituzte helburu, ingelesa, batik bat, baina baita, bigarren maila batean bada ere, frantsesa, alemanera eta espainiera bezalako hizkuntzak ere. LNParen ia 50 urteko historian gorabehera handiak izan dira. Helburu liluragarriak lortzear zeudela uste zen une euforikoei, belarriak jaitsi eta helburu apal baina eskuragarriagoetara mugatzeko une pragmatikoak jarraitu zaizkie behin baino gehiagotan. Konputagailuek hizkuntza pertsonok ulertzen dugun moduan ulertuko duten eguna urrun da oraindik, baina horrek ez du esan nahi aplikazio interesgarri eta oso baliagarriak egin ezin direnik. Aplikazio horien garapenerako, ordea, oinarri sendo batetik abiatu beharra dago. Oro har, hizkuntza teknologien egitura, piramide moduko batez irudika dezakegu (ikus 1. irudia). Piramide honen oinarrian ingeniaritza linguistikoan lan egiteko beharko ditugun oinarrizko baliabideak egongo dira. Baliabide hauei esker, tresnak garatzeko moduan izango gara, eta behin hauek garatuta, ingeniaritza linguistikoaren hainbat arlotan lan egiteko moduko produktu komertzialak kaleratu ahal izango ditugu. Kontutan izan behar da, ordea, alderantzizko bidea ezin dela egin, etxea teilatutik eraiki nahi ez badugu. 1. Irudia Aplikazioak garatuko badira, zer nolako azpiegitura behar da? Aplikazioak ditugu helburu, noski. Gizarte eleanitz batean bizi gara, eta eleaniztasun horretan lagungarri izango zaizkigun tresnekin egiten dugu ametsa: euskararako itzulpen automatikoa, hizketaren ezagutza,estilo zuzentzaileak ere nahi ditugu. Baina hauek sortzera helduko bagara oinarri sendo bat beharko dugu lehenik. Esaterako, itzultzaileentzat lagungarri izan daitekeen tresna semi automatiko baten garapenerako hainbat baliabide eta tresna garatu beharko ditugu lehenik (ikus 2. irudia). 2. Irudia Euskararen kasuan, hauek dira orain artean garatu ditugun oinarrizko tresna eta baliabide nagusiak: Tresnak Ahozkoa testu idatzi bihurtuko digun tresna. Euskal Herrian badira gai honetan diharduten bizpahiru ikertalde Bilboko Ingeniaritza Eskolako Aholab izenekoa bat, Leioako Zientzia Fakultatean beste bat. Analizatzaile morfologikoa. Hizkuntza guztietan beharrezkoa, eta euskara bezalako hizkuntza flexionatu eta eranskarien kasuan ezinbestekoa, analizatzaile (eta sintetizatzaile) morfologikoaren zeregina hitz forma osatzen duten morfemak ezagutzea (eta konposatzea) da, eta morfema bakoitzari dagokion informazio morfologiko lexikala ematea. Erreminta hau oinarri da hainbat aplikaziotan, hala nola, zuzentzaile ortografikoa, karaktere ezagutze optikoa (OCR), eta aplikazio sofistikatuago guztietan itzulpen automatikoa, adib. . Euskarako analizatzaile/sintetizatzaile morfologiko orokorra egina dago, eta Xuxen euskarazko zuzentzaile ortografikoaren funtsa da. Lematizatzaile/etiketatzailea. Lematizatzaile/etiketatzailea analizatzaile morfologikotik eratortzen da, eta hitz forma baten lema eta kategoria ematen ditu, anbiguotasuna saihestu edo gutxitzearren testuingurua aintzat hartuz. Zeregin nagusia desanbiguazioa bada ere, beste egitekorik ere badu halako tresna batek, esate baterako, hitz anitzeko unitate lexikalen identifikazioa (lokuzioak, hitz elkarketak, pertsona izenak, etab.). Oso aplikazio interesgarriak dituzte lematizatzaileek: indexazioa ¾Interneteko bilatzaileetan, adib.¾, terminologia eta lexikografia, etab. Euskarako lematizatzaile orokorrari EusLem izena eman diogu, eta ezarrita dago jadanik Interneteko hainbat bilatzaileetan. Analizatzaile sintaktikoa. Analizatzailesintaktikoen zeregina, testuetako osagai sintaktikoak ezagutzea da: perpausak, izen sintagmak, izen lagunak, etab. Analisiaren oinarria lexikoa eta gramatika izango dira, hitzen ezaugarriak eta egitura sintaktikoen osaketa posibleak definituko dituztenak. Hau ere ezinbesteko tresna dugu hizkuntza aplikazio askotan, itzulpen automatikoan, esate baterako. Euskararen kasuan, azaleko analizatzaile sintaktiko orokorra egina dugu EusMG , eta zuhaitz sintaktiko osoa emango digunaren ikerbideak nahiko aurreratuta daude. Hizkuntza baliabideak eta oinarriak Aplikazioak garatzeko tresnak behar ditugu lehenik, baina hauen oinarri baliabideak dira. Hona nagusiak: Datu base lexikala eta morfologiaren deskribapena. EDBL, euskararen datu base lexikalak, 75.000 sarrera inguru biltzen ditu egun. Hiztegi elektronikoak. Hizkuntzaren datu base lexikal orokorra oinarri dela, horren inguruan biltzen ahal dira beste zenbait tresna lexikal ere: definizio hiztegiak, hiztegi terminologiko berezituak, hiztegi elebidunak, eta beste. Gramatika konputazionalak: sintaxiaren deskribapena. Euskararen kasuan, gainera, morfologia eta sintaxiaren arteko lotura estua hartu behar da kontuan. Horrek eraman gaitu tratamendu morfosintaktikoa analizatzaile morfologikoan integratzera: Morfeus izeneko analizatzaile morfosintaktiko orokorra da emaitza. Taxonomia semantikoak. Hizkuntza ulertzea xede denean, baina, ez da aski morfologia eta sintaxiarekin, semantikaz ere jakin behar izaten baitu programak. Erlazio lexiko semantiko horiek sare semantiko moduko batean adierazten dira esplizituki. Ingelesezko sare semantikoen artean ezagunena edo WordNet izenekoa dugu, eta haren euskararako egokitzapenari Euskal WordNet deitzen diogu. Testu corpusak. Testu corpusak testu masa handiak dira, informazio linguistikoaren iturri nagusia, eta gorago aipatu aplikazio, tresna eta oinarrietarako probaleku ezinbestekoak Lehen esan bezala, oinarrizko baliabide eta tresna hauek gabe, ez gara izango gai helburu ditugunaplikazioak garatzeko. Euskararen kasuan, baditugu hainbat tresna eta baliabide, baina hizkuntza teknologiak ingelesa bezalako hizkuntzen pare nahi baditugu ikusi, badugu oraindik egin beharreko bide luze bat. Eleka Ingenieritza Linguistikoa Euskonews & Media 187.zbk (2002 / 11 / 8 15) Euskomedia: Euskal Kultur Informazio Zerbitzua Eusko Ikaskuntzaren Web Orria