Borrar
Urgente Las 10 noticias clave de la jornada
Xabier Saralegi y Ander Corral, investigadores de Orai. DV
La inteligencia artificial da un paso más en euskera con el modelo Llama-eus-8B

La inteligencia artificial da un paso más en euskera con el modelo Llama-eus-8B

El proyecto, impulsado por Orai y Elhuyar, facilitará la creación de aplicaciones como chatbots, correctores o generadores de texto en lengua vasca

Jesús Falcón

San Sebastián

Miércoles, 11 de septiembre 2024

Un traductor online, un corrector de textos o chatbot, todo será pronto posible en euskera y con sencillez de uso y acceso una vez desarrollado el nuevo modelo neuronal para sistemas de inteligencia artificia Llama-eus-8B de Orai NLP Teknologiak, un centro dependiente de Elhuyar. El proyecto, que asienta las bases para acercar las prestaciones en euskera a las que ya existen en inglés, supera el gran desafío que supone contar con menos recursos y bases de datos más pequeñas que los idiomas mayoritarios para avanzar en tecnologías que serán capaces de mejorar las prestaciones para entender y generar textos también en lengua vasca.

El proyecto Llama-eus-8B ha supuesto enseñar a las máquinas a leer y escribir en euskera de forma natural. Para ello en otros idiomas se han utilizado grandes cantidades de textos de todo tipo, pero al haber una menor cantidad en euskera los científicos han buscado otras alternativas para llegar al mismo resultado. Así, los investigadores de Orai han utilizado como modelo base el Llama3.1-8B desarrollado por Meta en inglés y lo han ajustado con textos en euskera utilizando un gran conjunto de datos conocido como ZelaiHandi, el mayor grupo de textos en euskera de libre acceso. Esto ha permitido que la IA aplicara lo que ya había aprendido en inglés para mejorar su comprensión y generación de textos en euskera y, aunque el rendimiento en la lengua vasca sigue siendo «notablemente inferior», sirve para asentar las bases e irse acercando.

Las aplicaciones futuras de Llama-eus-8B son muchas y variadas, y como este tipo de tecnologías aún incipientes, es de esperar que se extiendan y mejoren con el tiempo. De momento lo que permite es el desarrollo de varias aplicaciones en euskera.

Aplicaciones de Llama-eus-8B

  • Chatbots que pueden responder en euskera

  • Traductores automáticos que convierten texto de un idioma a otro

  • Correctores que revisan y mejoran la escritura de los textos, incluso a nivel gramatical

  • Generadores de contenido para crear textos automáticamente

Este proyecto es crucial para que el euskera no quede rezagado en el ámbito de la inteligencia artificial y la tecnología. Además, esta iniciativa ayudará a que en el futuro haya más herramientas digitales que entiendan y utilicen el euskera, facilitando su uso en la vida diaria, la educación y otros ámbitos.

Según explica Xabier Saralegi, investigador principal del proyecto BasqueLLM, «actualmente estamos experimentando con estrategias alternativas de entrenamiento para poder mejorar los resultados sin requerir mayores colecciones de textos en euskera, estrategias que mejoren la transferencia de las capacidades aprendidas en inglés al euskera».

Llama-eus-8B, que se ha desarrollado a partir del modelo más reciente de Meta (la compañía propietaria de Facebook y WhatsApp) y se distribuye de forma libre, «lo que facilitará el desarrollo e investigación de tecnologías en euskera tanto en el ámbito académico como industrial», explican desde Orai. El modelo ha sido evaluado en un amplio banco de pruebas que abarca 11 tareas, las cuales exigen competencias lingüísticas tanto formales (manejo correcto de la gramática y el vocabulario) como funcionales (capacidad de comprender y utilizar el lenguaje en contextos reales): exámenes escolares, resolución de problemas, cuestionarios sobre distintas materias, análisis de opiniones, etc.

Tecnología con sello guipuzcoano

Los resultados de la evaluación indican que Llama-eus-8B obtiene el mejor desempeño entre los modelos fundacionales ligeros (de menos de 10 mil millones de parámetros). El entrenamiento del modelo se ha llevado a cabo utilizando el sistema Hyperion del centro de supercomputación del Donostia International Physics Center (DIPC). Este modelo se ha desarrollado dentro del proyecto de investigación BasqueLLM, financiado parcialmente por la Diputación Foral de Gipuzkoa a través del Programa de Red Guipuzcoana de Ciencia, Tecnología e Innovación.

El equipo de trabajo de Orai, englobado en Elhuyar, cuenta con 9 investigadores doctores, ha publicado más de 110 artículos científicos, y ha sido pionero en la investigación en el procesamiento del lenguaje natural en el País Vasco.

Esta funcionalidad es exclusiva para suscriptores.

Reporta un error en esta noticia

* Campos obligatorios

diariovasco La inteligencia artificial da un paso más en euskera con el modelo Llama-eus-8B