bizkaiko_foru_aldundia

Lotutako artikuluak

Zure iritzia / Su opinión

Parte har ezazu

Sariak

  • Artetsu Saria 2005

    Arbaso Elkarteak Eusko Ikaskuntzari 2005eko Artetsu sarietako bat eman dio Euskonewseko Artisautza atalarengatik

  • Buber Saria 2003

    On line komunikabide onenari Buber Saria 2003. Euskonews

  • Argia Saria 1999

    Astekari elektronikoari Merezimenduzko Saria

Ahozko corpusen ezaugarriez

Iñaki GAMINDE, UPV-EHU

Lantxo honetan Deustuko Unibertsitatean 2011ko azaroaren 3an Eusko Ikaskuntzak antolatutako “Corpus orales en ámbitos bilingües” izeneko jardunaldietan eman nuen hitzaldiaren laburpena aurkezten da.

Hitzaldiak helburu nagusi bi eduki zituen. Batetik, esparru honekin erlazionatutako lanen inguruko hausnarketa bultzatu nahi izan zen, horretarako izenburuaren beraren zehaztapen batzuk egin ziren gaia kokatzeko, izan ere, grabatzen den guztia ezin “corpus”tzat har daiteke. Bestalde, UPV-EHUko EUDIA eta AHODIKER ikerketa taldeetako partaide izanik, talde hauek garatzen ari diren corpusen ezaugarri orokorrak aurkeztu ziren, hala nola, neure 93-79 izeneko prosodiaren gaineko corpusarenak ere (Gaminde, 2011).

Teknologiaren ekarriek ahalbidetu dute edozeinek grabazio bat egin ahal izatea, are gehiago grabazio horiek interneten eskegi daitezke erraz. Honek ez du esan nahi corpus deitura edozeini eman dakiokeenik.

Ahozko corpusak oso desberdinak dira, helburuetan, metodologietan, datuen erabileran eta aurkezpenean. Euskal Herrian dauzkagunak edo direnak ikusten baditugu laster konturatzen gara horretaz. Azken aldion Euskaltzaindiaren Atlasa agertzen hasi da (Euskaltzaindia, 2008), argitalpena amaitzen denean, argi dago izugarrizko altxorra izango dela iraganeko euskara aztertu ahal izateko. Badaude EUDIA taldeak dauzkan corpusak (EUDIA, 2010), AHOLAB taldearenak (2011), IKER taldea garatzen dabilena (2010) edo beste era bateko bat aipatzearren AHOTSAK proiektua (Badihardugu Euskara Elkartea, 2010). Ezin ukatuzkoa da corpus handi hauek oso erabilgarriak izan daitezkeena; dena dela, denek euron muga zehatzak dituztela kontuan hartu behar da.

Euskaltzaindiaren Atlasa izugarrizko altxorra izango da iraganeko euskara aztertu ahal izateko

Euskaltzaindiaren Atlasa izugarrizko altxorra izango da iraganeko euskara aztertu ahal izateko.

Corpus batzuk ikerketa zehatz batzuen helburuen arabera eraikitzen dira eta itxiak izaten dira, hots, ikerketa burutzen denean, corpusa ez da gehiago aberasten; hauen artean aurreko paragrafoan aipatu ditugun gehienak koka daitezke. Corpus irekiak, ostera, etengabe elikatzen direnak dira.

Ondarea batzeko eta gordetzeko egiten diren lanak ere, uste dut ezen, nahikoa urrun daudela “corpus” delako horrek bete behar dituen baldintzetatik. Linguistikoki ustiatzeko osatzen diren ahozko corpusez onartzen badugu ondoko definizioa, hastapenetik bertatik ikus dezakegu ezen, corpusaren beraren helburuak teoria linguistiko baten oinarritu behar direla eta teoria horrek corpusa osatzeko aldi guztiak baldintzatuko dituela ezbairik gabe.

A corpus is a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or language variety as a source of data for linguistic research.
Sinclair, J. (2005)

Makina bat izan dira azken urteotan herri hizkeretan oinarrituta egin diren monografiak eta baita tesiak ere. Lan horiek guztiek datu iturri garrantzitsuak izanagatik ere, ikuspuntu teorikoari dagokionez, ezin esan dezakegu maila bereko ekarpenik egin dutenik. Gainera, horietan guztietan oso ikuspuntu desberdinak erabili dira; batzuetan datuak jaso nahi izan dira beste barik, gehienetan, euskararen egoera minorizatuak berak eraginda ziurrenik, belaunaldi zaharrenak desagertu baino lehen batu nahi izan dira datu horiek.

Lan horien guztien zilegitasuna eta balioa ukatu barik, honezaz daukagun ikuspuntua argiro azaldu nahi izan dugu corpusaren ideia finkatzekotan. Hiru dira gure ustez honelako lanek bete behar dituzten baldintzak: deskribatu, azaldu eta aurreikuspenak egin; laugarrena euren aplikazio praktikoei legokieke baina oraingoz honetatik kanpo utziko dugu.

Deskribatu behar dira datuak eta gertakariak. Horretarako datuak batu behar dira metodologia zehatz bat erabilita, metodoaren egokitasunak gainerako guztia baldintzatzen baitu. Puntu honetan gainerako aldiak bete ahal izateko datuen nahikotasuna eta kalitatea bermatzea beharrezkoa da (grabatzeko formatuak, tresneria, lekukoen ezaugarriak, galdekizunak eta eurak burutzeko baldintzak, e.a.).

Datuak eta datuek islatzen dituzten gertakari linguistikoak azaldu behar dira. Horretarako teoria linguistikoetara jo behar da ezinbestez. Makina bat dira hizkuntzalaritzan indarrean dauden teoriak. Teoriek datuak azaltzeko tresnak ematen dizkigute.

AHOLAB

Ahozko corpusak oso desberdinak dira, helburuetan, metodologietan, datuen erabileran eta aurkezpenean, adibidez AHOLAB taldearenak (2011).

Behin datuak eta gertakari linguistikoak deskribatu eta azaldu ondoren, hurrengo urratsa aurreikuspenak egitea litzateke. Datuak gauza askotarako erabil daitezke euren hutsean, besteak beste barietatearen lekua zein den finkatzeko hizkuntzaren gainerako barietateen artean; datu hutsak edo azaldutakoak erkatu behar diren eztabaidagai dagoen gaia dugu eta ez dugu hemen ebatziko; edozelan ere, bariazio diatopikoaren esparruan egongo ginateke hala eginez gero. Beste zeregin garrantzitsu bat hizkuntza estandarrarekin barietateak dauzkan erlazioak aztertzeko erabil daitezke, bariazio diafasikoaren esparruan. Azkenik, aurreikuspenak egiteko esaten dugunean, esan nahi dugu horien bidez hizkuntzaren bilakaera eta nondik norakoak susma ditzakegula aldagai sozialen arabera aztertzen baditugu, hau da, bariazio diastratikoaren esparruan. Honetarako argi dago matematikan eta estatistikan oinarritutako azterketek ezinbesteko laguntza emango digutela.

Behin corpusaren seinaleak baldintza linguistiko eta tekniko egokiak beteta jaso ondoren, audio eta bideo seinale bilduma dorpe bat baizik ez daukagu. Argi dago datu gordinak prozesatu behar direna euren erabilpenerako. Prozesaketa horretan hiru aldi bereiz daitezke: etiketazioa, anotazioa eta gordeketa. Lehen aldian etiketazioa egiteko tresna batzuk (Elan, Praat) eta dauden arazoak agertu ziren. Anotazioari dagokionez, EUDIA ikerketa taldearen EDAK corpusa prozesatzeko erabili diren prozedurak aurkeztu ziren, anotatzeko estandar baten ezaugarriak aurkeztu ziren (TEI, 2011) eta anotazio prosodikorako ToBI (Beckman, M. eta Ayers, M., 1994) sistemak euskararen kasuan aplikatzean sortzen diren arazoak azaldu ziren, izan ere, barietate askotan, beste hizkuntza batzuetan ez bezala, euskaraz ezin jakin dezakegu aldez aurretik zein den silaba azentudunaren kokagunea. Jakina denez, tonu mogimenduak silaba azentudunarekin erlazionatuta anotatzen dira sistema honetan.

Datuen tratamendu estatistikorako teknika batzuk erakutsi ziren, teknika horiek sistemaren barruan inplementatuta daude eta sailkapen automatikoa ahalbidetzen dute, horrezaz gain, datuak geo-erreferentziatuta daudenez gero, datuak mapetara irauli daitezke automatikoki.

Euskararen prosodiaz egindako 93-79 corpusaren ezaugarri batzuk ere (Gaminde, 2011) azaldu ziren. Corpus horren helburu nagusia prosodiaren azterketa orokorra egitea denez gero, Euskal Herri osoko 700 lekukoren materialak biltzen ditu oraingoz. Material horiek lau atal nagusitan banatzen dira: Berbak, Esaldiak, Bat-bateko testuak eta Testu irakurriak. Berbak deritzon atalean, berba isolatuak eta talde klitikoak batzen dira. Hauen helburu nagusiak bi dira; alde batetik, ebakera zehatz batzuk aztertzea eta bestetik, azentueren arauak ikertzeko materiala edukitzea. Esaldiak izeneko atalean biltzen diren materialen bidez intonazio ereduak, emozioak eta jarrerak ikertu nahi dira. Aurrerantzean prosodiaren informazio para-linguistikoak eta ez-linguistikoak lantzeko beste eremu batzuk ere gehituko dira, hala nola kortesia ikertzeko esaldi motak. Bat-bateko testuetan izeneko atalean, era bitako testuak batzen dira, narratiboak eta instrukzioak direnak. Azkenik, testu irakurriak ere batu dira.

EUDIA

EUDIA ikerketa-taldea euskararen bariazioa ikertzeko sortutako taldea da. Bere helburuetan euskararen aldaketa edo bariazioa ikertu, bariazio hori sortzen duten faktoreak, sozialak zein bestelakoak, zein diren zehaztu eta bariazioa ikertzeko tresnen sortze-lanak aurkitzen dira.

Etiketazioa eta anotazioa “Praat” (Boersma, P. eta Weenink, D., 2009) programaren bidez egin da, bertan material moten arabera egin den anotazio sistema berezitua azaldu zen. Horrela bada, berbak etiketatzeko oraingoz maila bakarra erabili da. Intonazioa aztertzeko hiru maila erabiltzen dira (esaldiak, berbak eta silabak) Emozioak eta jarrerak aztertzeko “soinu” maila gehitu da, maila honetan bokalak markatuz. Kasu guztietan transkripzio fonologikoa erabili da.

Bat-bateko testuetan eta testu irakurrietan hiru etiketazio maila erabiltzen dira (esaldiak, silabak eta soinuak), kasu hauetan transkripzio fonetikoa egiten da IPAren arabera. Esaldi mailan talde prosodikoen amaierako tonuak eta etenak markatu dira. Tonuetan bost tonu mota bereizten dira; hiru tonu bakun, goranzkoa (H), beherazkoa (L), ertaina (M), eta tonu bikun bi silaba berean tonu mugimendua gertatzen denerako, goranzko-beheranzkoa (HL) eta beheranzko-goranzkoa (LH). Azken silaba horren bokal txertaketa edo luzapena gertatzen denean (v) etiketa gehitu dugu. Azkenik, eten mota bi bereizi ditugu; batetik isilunea daukaten etenak (%) eta bestetik isilune barik gauzatzen direnak ($).

Azkenik, ahozko corpusen esparru honen konplexutasuna azpimarratu ondoren, berau gure hizkuntzan lantzeko espezialista askoren talde lanaren beharrizana agirian utzi nahi izan da, eraginkorrak izan nahi badugu behintzat.

Aipamenak:

Aholab (2011)

Beckman, M. eta Ayers, M. (1994) “Guidelines for ToBI labelling”, eskuizkribua, Ohio State University (3.0 bertsioa, 1997: http://www.ling.ohio-state.edu/phonetics/E_ToBI).

Boersma, P. eta Weenink, D. (2009). Praat: doing phonetics by computer (Version 5.1) [Computer program]. Retrieved January 31, 2009.

Camino, I. (2009) Dialektologiatik euskalkietara tradizioan gaindi, Elkar, Donostia.

Eudia (2010) Proiektuak.

Euskaltzaindia (2008) Euskararen Herri Hizkeren Atlasa (I-II) Bilbo.

Gaminde, I. (2011) “79-93ko Euskaldunen Ahozko Corpusaren Ezaugarrien Deskripzioa” Euskalingua 18 (6-12).

Iker (2010) Norantz.

Sinclair, J. (2005) “Corpus and Text - Basic Principles”, in WYNNE, M. (Ed.) Developing Linguistic Corpora: a Guide to Good Practice. Oxford: Oxbow Books.

TEI: Text Encoding Initiative (2011).

Irakurleen iritziak:

comments powered by Disqus
Laguntzaileak
Gipuzkoako Foru AldundiaEusko Jaurlaritza
Eusko IkaskuntzaAsmozEuskomedia