El grupo de Procesamiento de Lenguaje Natural (PLN) del Instituto de Computación (Inco) de la Facultad de Ingeniería (Fing) fue premiado en una de las principales conferencias de Lingüística Computacional por su artículo “Aumento de datos basado en gramática para idiomas de bajos recursos: el caso de la traducción automática neuronal guaraní-español".
Los docentes involucrados, Luis Chiruzzo y Santiago Góngora; y los estudiantes de proyecto de grado Agustín Lucas, Alexis Baladón, Victoria Pardiñas y Marvin Agüero-Torales, recibieron el Special Track Award en HLT-NAACL.
La Annual Conference of the North American Chapter of the Association for Computational Linguistics - Human Language Technologies 2024 se desarrolló en Ciudad de México desde el 16 al 21 de junio de 2024.
Ver el artículo completo en: https://aclanthology.org/2024.naacl-long.354/
Resumen
El procesamiento de lenguaje natural (PLN) inicialmente se enfocó en la traducción automática de textos mediante reglas sintácticas, que requerían un intenso trabajo de expertos. Sin embargo, debido a la naturaleza dinámica del lenguaje, estos métodos resultaron limitados. Con el tiempo, surgieron métodos estadísticos y neuronales que utilizan grandes cantidades de datos para mejorar la traducción automática, como lo hace Google Translate.
Las lenguas como el guaraní, conocidas como lenguas de “escasos recursos”, no cuentan con suficientes datos para entrenar modelos estadísticos o neuronales. Esto crea un círculo vicioso donde la falta de herramientas informáticas dificulta la recolección de texto de calidad y viceversa.
El artículo realizado por el grupo de PLN de la Facultad de ingeniería, premiado en NAACL 2024, propone una solución a este problema mediante la generación de un texto “sintético” en guaraní y español, usando gramáticas programadas con reglas. El texto sintético es una aproximación al idioma y no es perfecto, pero ofrece una base suficiente para que los traductores automáticos puedan comenzar a funcionar. Luego, estos traductores pueden afinarse con texto real de calidad escrito por hablantes nativos.
Este enfoque tiene dos consecuencias importantes: primero, podría mejorar significativamente los traductores automáticos para lenguas de escasos recursos, como el guaraní; segundo, podría desbloquear el desarrollo de herramientas de PLN para otras lenguas indígenas de Latinoamérica, ayudando a romper el círculo vicioso y fomentar la digitalización y preservación de estas lenguas.