La Biblia ha sido usada para entrenar a la inteligencia artificial de Meta, para "dominar" más de 1000 idiomas

La empresa Meta, anteriormente conocida como Facebook, ha adoptado un enfoque revolucionario para entrenar a sus modelos de inteligencia artificial (IA) en el reconocimiento y producción de voz para más de mil idiomas. Este audaz experimento ha utilizado nada menos que la Biblia como principal fuente de datos. La compañía tiene la esperanza de que estos algoritmos contribuyan a la preservación de lenguas que se encuentran en riesgo de desaparecer.

El Proyecto de Meta
El proyecto de Meta comprende la liberación de sus nuevos modelos de lenguaje al público a través del servicio de alojamiento de código GitHub. El objetivo es que los desarrolladores que trabajan en diferentes lenguajes puedan construir nuevas y variadas aplicaciones de voz.
Para llevar a cabo esta tarea, los nuevos modelos de Meta fueron entrenados en dos conjuntos de datos: uno que contiene grabaciones de audio del Nuevo Testamento de la Biblia en 1,107 idiomas y otro que incluye grabaciones de audio sin etiquetar del Nuevo Testamento en 3,809 idiomas.

El Desafío de los Datos
La falta de datos es un desafío común en el campo de la IA. «Para el inglés, tenemos muchos y muy buenos conjuntos de datos, y los tenemos para algunos otros idiomas, pero simplemente no los tenemos para idiomas que son hablados por, digamos, 1000 personas», explicó Michael Auli, científico de investigación en Meta que trabajó en este proyecto.

Resultados del Proyecto
Los investigadores ahora afirman que sus modelos pueden conversar en más de 1000 idiomas y reconocer más de 4000. Este logro es especialmente significativo si se tiene en cuenta que hay alrededor de 7000 idiomas en el mundo.

Comparación con otros Modelos
Además, en comparación con modelos de empresas rivales, incluyendo OpenAI Whisper, la versión de Meta tuvo la mitad de tasa de error, a pesar de cubrir 11 veces más idiomas.

¿En cuántos idiomas ha sido traducida la Biblia?
Según la Sociedad Bíblica Unida, hasta la fecha, la Biblia completa ha sido traducida a más de 700 idiomas. Sin embargo, este número crece de manera exponencial si consideramos los libros individuales de la Biblia. Cuando se incluyen porciones individuales y libros completos de las Escrituras, el número de traducciones se eleva a más de 3,400 idiomas.

El Nuevo Testamento, la parte de la Biblia que relata la vida, enseñanzas y obra de Jesucristo, ha sido traducido a más idiomas que el Antiguo Testamento. Hasta la fecha, ha sido traducido a más de 1,500 idiomas. Este esfuerzo ha llevado a un impulso continuo de traducción en muchos idiomas minoritarios y en peligro de extinción.
Lógicamente, la traducción de la Biblia a tantos idiomas no está exenta de desafíos. Cada idioma tiene sus propias particularidades, con diferentes formas de expresar ideas y conceptos. Esto significa que, en muchos casos, los traductores deben esforzarse por encontrar las palabras y frases correctas para transmitir con precisión los mensajes y significados originales de los textos bíblicos, por lo que es difícil tratarlo como fuente perfecta para entrenamiento de IA.

Posibles Problemas con la IA
No todo es perfecto. Los científicos admiten que sus nuevos modelos pueden transcribir incorrectamente algunas palabras o frases, y que sus modelos de reconocimiento de voz arrojaron palabras más sesgadas que otros modelos, aunque sólo un 0.7% más.

Chris Emezue, investigador de Masakhane, una organización que trabaja en el procesamiento de lenguaje natural para idiomas africanos, quien no estuvo involucrado en el proyecto, dijo a MIT que el uso de textos religiosos para entrenar los modelos puede ser problemático. Según él, «la Biblia tiene mucho sesgo y tergiversaciones».
Este proyecto de Meta plantea una pregunta clave: ¿Estamos ante un avance significativo para los modelos de lenguaje o la polémica que lo rodea lo hace menos impactante?