El tratamiento informatizado de un aspecto tan esencial en nuestra vida cotidiana como es el lenguaje natural está adquiriendo una importancia cada vez mayor. El crecimiento diario de las bases de datos documentales, la modificación de las formas de comunicarse a través del ordenador y la digitalización de los sistemas multimedia nos obligan a estudiar las posibilidades de procurar al lenguaje natural un tratamiento informático.
Así las cosas, la industria del lenguaje, y más concretamente la ingeniería lingüística, desempeña un papel primordial en cuanto a recuperar, filtrar, seleccionar y gestionar la información, así como en ofrecer de cara a sus contenidos las mejores herramientas de gestión posibles.
Nos encontramos ante un ámbito que en Europa va camino de convertirse en estratégico, dada la relevancia que la llamada ingeniería lingüística o tratamiento informatizado del lenguaje natural está adquiriendo en los programas de investigación europeos. Un gran número de líneas de investigación han avanzado hasta límites que hasta hace sólo unos años hubieran sido impensables. En cualquier caso, la investigación del lenguaje natural tanto europea como mundial únicamente afecta a las principales lenguas, como son el inglés, el alemán, el castellano y el francés, entre otros.
En tal sentido, las nuevas tecnologías que se vienen desarrollando abrirán en un futuro no muy lejano nuevas puertas a las aplicaciones para las principales lenguas. Dentro de pocos años, nos comunicaremos con el ordenador y los electrodomésticos a través del lenguaje natural; claro que si no avanzamos lo necesario nos veremos obligados a hacerlo en una lengua ajena.
En vista de lo mucho que queda por hacer en el ámbito de la tecnología, y especialmente en el caso del euskera, los grupos Elhuyar e IXA han decidido unirse y de tal modo compartir tanto su dilatada experiencia como la tecnología que han venido desarrollando, con el objeto de situar el euskera a la misma a la altura que las principales lenguas en cuanto a ingeniería lingüística se refiere. Esa es precisamente la misión de ELEKA, la empresa de ingeniería lingüística que han creado.
La principal misión de ELEKA es situar el euskera a la misma altura que las principales lenguas con respecto a la tecnología de la información. Además, ofrece soluciones multilingües de I+D+I a las empresas y entidades que gestionan el conocimiento y aplican tecnologías de la información.
La aplicación de la ingeniería lingüística
Como se ha señalado anteriormente, la gran mayoría de las aplicaciones existentes en el mercado están destinadas a las "grandes" lenguas, sobre todo al inglés, pero también, aunque en menor medida, al francés, al alemán y al español.
En los 50 años de historia del PLN (Procesamiento del Lenguaje Natural) se distinguen situaciones de todo tipo. En más de una ocasión, los momentos de euforia generados por la convicción de haber alcanzado espléndidos objetivos han venido seguidos de momentos más pragmáticos que obligaban a agachar la cabeza y limitarse a llegar a metas más modestas pero accesibles. El día en que las computadoras lleguen a discernir el lenguaje tal y como las personas somos capaces de entender queda todavía bastante lejos, pero ello no es óbice para descubrir nuevas aplicaciones de gran interés y valía.
Sin embargo, para poder desarrollar las mencionadas aplicaciones, es absolutamente necesario contar con una sólida base. La estructura de las tecnologías lingüísticas responde, por lo general, a una forma piramidal (véase la 1ª imagen), en cuya base se encuentran las herramientas más básicas con las que trabajar en la ingeniería lingüística, que nos permitirán elaborar productos comerciales para ser aplicados en múltiples ramas de la ingeniería lingüística. En cualquier caso, hay que tener en cuenta que este proceso no se puede desarrollar a la inversa, salvo que no tengamos ningún tipo de inconveniente en empezar a construir la casa desde el tejado.
 |
1ª imagen |
¿Qué tipo de infraestructura se requiere de cara al desarrollo de las aplicaciones?
Obviamente, nuestra atención se centra en las aplicaciones. Al formar parte de una sociedad multilingüe, lo que deseamos es poder trabajar con herramientas que resulten útiles en dicha pluralidad lingüística, disponer de la traducción automática al euskera, del reconocimiento de la voz, de correctores de estilo. Para todo ello, es fundamental que partamos de una sólida base, como pueden ser medios y herramientas para el desarrollo de herramientas semi-automáticas de interés para los traductores (véase la 2ª imagen).
 |
2º imagen |
He aquí los principales medios y herramientas que por el momento hemos desarrollado para el euskera:
Herramientas
- Instrumento que convierte la voz en texto escrito. En Euskal Herria existen ya varios grupos de investigación volcados en este campo (el llamado Aholab en la Escuela de Ingeniería de Bilbao, y otro más en la Facultad de Ciencias de Leioa).
- Un analizador morfológico, totalmente necesario en todas las lenguas, e imprescindible en el caso de una lengua tan flexionada y aglutinante como el euskera. La función del analizador (y sintetizador) morfológico consiste en reconocer (y componer) los morfemas que componen una forma, y dotar a cada morfema de su correspondiente información morfológica. Esta herramienta es fundamental para aplicaciones como la corrección ortográfica, el OCR, y en todas las aplicaciones que presentan más sofisticaciones (en la traducción automática, por ejemplo). El analizador/sintetizador morfológico del euskera está ya preparado, y es la base del corrector ortográfico del euskera Xuxen.
- El lematizador/etiquetador deriva del analizador morfológico, y proporciona el lema y la categoría de una forma atendiendo al contexto para evitar o reducir la ambigüedad. Si bien la tarea principal de esta herramienta es la de desambiguar, realiza otra serie de funciones, como por ejemplo la de identificar las unidades léxicas formadas por varias palabras (locuciones, palabras compuestas, nombres propios, etc.). Las aplicaciones de los lematizadores resultan de gran interés: la indexación -por ejemplo, en los buscadores de Internet-, terminología y lexicografía, etc. Hemos bautizado el lematizador general del euskera como EusLem, y ya se encuentra disponible en varios buscadores de Internet.
- Un analizador sintáctico. La función del analizador sintáctico es la de reconocer los componentes sintácticos de un texto, tales como frases, sintagmas nominales, adjetivos, etc. Las posibles formaciones de las características y estructuras de las palabras vienen definidas por la base léxica y gramática del análisis. Esta herramienta resulta también primordial en varias aplicaciones lingüísticas, como por ejemplo en la traducción automática. En el caso del euskera, contamos con un analizador sintáctico general superficial llamado EusMG. Por otra parte, los estudios que se están llevando a cabo para configurar árboles sintácticos están ya bastante avanzados.
Recursos y fundamentos lingüísticos
Para poder desarrollar las aplicaciones es necesario contar con herramientas, pero éstas tienen que dotarse de recursos, entre los cuales destacan:
- La base de datos léxica y la descripción de la morfología. EDBL, la base de datos léxica del euskera, recoge cerca de 75.000 entradas.
- Los diccionarios electrónicos. A partir de la base de datos léxica, se pueden confeccionar otras herramientas lexicales: diccionarios de definiciones, diccionarios terminológicos especializados, diccionarios bilingües, etc.
- Las gramáticas computacionales: descripción de la sintaxis. La íntima conexión existente entre la morfología y la sintaxis en el caso del euskera nos ha llevado a integrar el tratamiento morfosintáctico en el analizador morfológico, cuyo resultado es el analizador morfosintáctico general Morfeus.
- Las taxonomías semánticas. Cuando el objetivo a alcanzar es entender una lengua, pero ni la morfología ni la sintaxis resultan suficientes, los programas necesitan tener ciertas nociones de semántica. Estas relaciones léxico-semánticas se recogen explícitamente en una especie de red semántica, cuya versión inglesa más conocida es WordNet. Su adaptación al euskera se llama Euskal WordNet.
- Los corpus de textos. Son grandes masas de textos, la principal fuente de información lingüística, probadores de las aplicaciones, herramientas y recursos arriba mencionados.
Como ya se ha mencionado, estos recursos y herramientas fundamentales nos resultan absolutamente necesarios para desarrollar las aplicaciones con las que soñamos.
En el caso del euskera contamos con varias herramientas y recursos, pero si lo que queremos es que en lo que respecta a las tecnologías lingüísticas alcance el mismo nivel que otras lenguas como el inglés, todavía nos queda un largo camino por recorrer.
Eleka Ingenieritza
Linguistikoa |