471 Zenbakia 2009-01-30 / 2009-02-06

Gaiak

XML eta bere garrantzia gaur egun

ARRUARTE, Ana ARTOLA, XabierXML (Extensible Markup Language) helburu orokorreko markatze-lengoaia da. W3Ck (World Wide Web Consortium) sortua 1998an, nazioarteko estandar libre eta doakoa da.

Markatze-lengoaiak (markup language) testuen egitura, itxura edo/eta formatua adierazteko markak edo etiketak erabiltzen dituzten lengoaia informatikoak dira. Testuaren jatorrizko edukiari funtzio edo esanahi jakin bat duten etiketak gehituz egiten da markatzea, eta horri esker da posible testuok programa informatikoek modu egokian interpretatu eta tratatu ahal izatea.

XML hedagarria da (extensible) erabiltzaileari bere elementuak definitzeko aukera ematen diolako: erabiltzaileak defini ditzake bere gustuko markak edo etiketak, eta etiketa horien arabera antolatu dokumentua. Izan ere, XML lengoaia baino metalengoaia dela esan behar da, hainbat lengoaia edo aplikazio definitzeko eta erabiltzeko aukera ematen baitu. XMLk, berez, sintaxi bat baino ez du zehazten, testua eta markak dokumentuan nola idatzi eta antolatu arautuz.

XMLren helburu nagusia datu egituratuak informazio-sistemen artean trukatzea da, Internet bidez, batez ere. Testu hutseko formatua da, eta horrek erruz errazten du informazioaren transferentzia, plataformekiko independentzia lortuz. Edozein dokumentu marka daiteke XML erabiliz. Gainera, Unicode onartzen duenez, edozein hizkuntzarentzat da baliagarria. Unicode estandarrak edozein hizkuntzatan idatzitako karaktereak informatikoki kodetzea ahalbidetzen du. XML, makinek ez ezik, pertsonek ere irakurri eta interpreta dezaketen formatu autodokumentatua da.

Foto: B a m s h a d.

http://www.flickr.com/photos/bamshad/1197038886/ /

XML dokumentuak prozesagarriak izango badira, ondo eratuta egon behar dute (well-formed), sintaxi-arau zorrotzak betez. XML dokumentuen datu-eredua hierarkikoa da eta bi egitura nagusiz osatuta dago: elementuak eta atributuak. Elementuak sinpleak edo konplexuak izan daitezke. Elementu sinpleak datu-balio oinarrizkoz (karaktere-kate edo string-ak) osatuta daude; konplexuek, aldiz, beste elementu batzuek eratutako egitura hierarkikoa eduki ohi dute beren barruan. Atributuak informazio gehigarria (metainformazioa) deskribatzeko erabili ohi dira.

Hona hemen, adibide gisa, artikulu hau bera kodetzeko erabil genezakeen XML dokumentu baten zati bat:

<" ><artikulua hizkuntza=”eu”>

<" ><izenburua>XML eta bere garrantzia gaur egun<" ></izenburua>

<" ><egileak>

<" ><egilea>Ana Arruarte<" ></egilea>

<" ><egilea>Xabier Artola<" ></egilea>

<" ></egileak>

<" ><testua>

<" ><atala n=”1”>

<" ><p>...<" ></p>

<" ><p>...<" ></p>

<" ><p> XML hedagarria da...<" ></p>

...

<" ></atala>

...

<" ></testua>

<" ></artikulua>

Dokumentu mota jakin baterako onartzen den markatzea eskema baten bidez adierazten da. Eskemak dokumentu mota baten gramatika definitzen du. XML dokumentu bat ongi eraturik badago, eta, gainera, edukiak eskema edo gramatika jakin baten erregelak betetzen baditu, dokumentua baliozkoa (valid) dela esaten da. Eskema-lengoaien artean DTD eta XML Schema dira ezagunenak. Halere, badira beste batzuk: RELAX NG, Schematron etab.

Eskema-lengoaiez gain, XMLren inguruko beste hauek ere aipagarriak dira: XPath, XML dokumentuen osagaiak erreferentziatzeko oinarri-oinarrizkoa dena; XSLT, XML dokumentuak transformatzeko programazio-lengoaia; eta XQuery, kontsultarako erabiltzen dena.

Dokumentu mota batek erabilera zabala duenean, eta erakunde edo talderen batek adostua bada, XML aplikazioa esaten zaio. XML aplikazio batez baliatuz marka daitezke mota jakin bateko dokumentuak, nork bere etiketak asmatzen ibili gabe. XML aplikazio edo lengoaia horien adibide ditugu SVG, irudi bektorialak XMLz kodetzeko, DocBook, liburu teknikoen ediziorako, edo TEI, mota askotako testuak (literatura, hiztegiak etab.) XMLz kodetzeko gidalerroak zehaztu eta eskaintzen dituen nazioarteko ekimena.

Aipatu dugu dagoeneko Internet dela XMLren probaleku nagusietako bat. XML SGMLtik (Standard Generalized Markup Language) eratorria da. SGML 70eko hamarkadan sortutako markatze-metalengoaia konplexua da. HTML, berriz, web-orriak deskribatzeko etiketa multzo mugatua eskaintzen duen SGML aplikazioa da. Etiketak, batez ere, aurkezpenari begirakoak dira HTMLn, eta ez dago aurkezpena ez den beste ezertan erabiltzeko pentsatua. 1996an, SGMLren bertsio sinplifikatu bat egiten saiatu ziren weberako, estiloa mantenduz baina erabilerrazago bihurtuz. Horrela, 1998an XML 1.0 sortu zen. XML, HTML ez bezala, informazioaren egitura eta esanahia errepresentatzera zuzendutako formatu bat da, edukia eta ez nabigatzailean izango duen itxura: edukiari dagozkion bistaratze-ezaugarriak aparte adierazi eta gordetzen dira, XSL edo CSS estilo-orriak erabiliz.

XMLren garrantzia handia da gaur egungo web-teknologian, prozesu eta teknika askoren oinarrian baitago. Amaraunaren bilakaerari erreparatzen badiogu, Web 1.0 deiturarekin ezagutzen den amaraun hartako HTML estatikotik –non orriak ez ziren, Web 2.0-n bezala, eskatu ahala sortzen– gaur egungo webak eskaintzen dituen aplikazio eta zerbitzuetaraino aurrerapauso handiak eman direla esan daiteke. RSSk1, esate baterako, Web 2.0-ko tresna bat aipatzearren, albisteak saretik zabaldu eta banatzeko sindikazio-mekanismoa ahalbideratzen du, horretarako XML formatu jakin batez baliatuz.

Web 2.0-k ekarri dituen zerbitzu eta aplikazio interaktibo eta kolaboratiboez haratago, baina, gero eta gehiago aipatzen da web semantikoa, Web 3.0 izenarekin bataiatu den etorkizuneko amaraunaren parte funtsezkoa litzatekeena. XML dokumentu batek, berez, ez du “esanahirik”, guk ematen dioguna ez bada. Makina edo programa batek interpretatuko badu, semantika bat eman behar zaio, esanahiz jantzi behar dira dokumentu horretan agertzen diren egitura, elementu eta atributuak. Esate baterako, nola “jakin” dezake programa batek goiko adibide horretako <" ><izenburua> elementuak zer esan nahi duen?

Foto: xb3.

http://www.flickr.com/photos/bofh/30903921/

Web semantikoa delakoa esanahi-ez hori betetzera dator, hain zuzen ere. RDF (Resource Description Framework) amarauneko baliabideak eta beren arteko erlazioak deskribatzeko oinarria ematen digun W3Cren beste lengoaia bat da, logikan eta linguistikan oinarritua. RDFren funtsa baliabideak eta erlazioak unibokoki interpretatzeko azpiegitura bat ezarri eta eskaintzea da. RDF espresioak XMLz adierazi ohi dira maiz.

XMLren erabilera eta aplikazioei dagokienez, esan behar da gaur egungo informatikaren arlo askotan dagoela presente. XML era anitzeko dokumentuak markatzeko erabiltzen da: liburutegi digitalak, testu-corpusak, e-merkataritzako informazioaren errepresentazioan eta transferentzian, eta abar.

Lehenago esan dugun bezala, web-aplikazioen munduan erruz erabiltzen da; hor dago Ajax teknologia, esate baterako. Web-zerbitzuekiko komunikazioan ere oinarri da. Web-zerbitzuak aplikazio informatikoen arteko interakzioari web bidezko euskarri ematen dioten software-sistemak dira. Sarean zeharko komunikazio hori bideratzeko erabili ohi diren protokoloak, SOAP (Simple Object Access Protocol) edo XML-RPC (XML Remote Procedure Call), esaterako, XMLn oinarritzen dira datu-trukea gauzatzeko.

Bestalde, datu-baseen munduan ere garrantzia hartzen ari da, datu-transferentziarako euskarri gisa ez ezik, biltegiratzeko formatu gisa. Arlo honetan, aipatu behar dira XML dokumentuak biltegi-unitate nagusitzat dituzten datu-baseak: XML datu-base natiboak.

XMLren garrantzia hainbeste teknologiaren oinarri izate horretan datzala uste dugu. Estandar onartua izateak, gainera, balio erantsia ematen dio. Teknologia hau menderatzea interes handikoa iruditzen zaigu, informatikarientzat ez ezik, beste arlo batzuetako profesionalentzat ere.

1 Rich Site Summary, RDF Site Summary edo/eta Really Simple Syndication izeneko formatuak aipatzeko erabili ohi diren siglak.