Facebook ha desarrollado un nuevo modelo de lenguaje de inteligencia artificial (IA) llamado M2M-100, un traductor de centenar de idiomas sin depender del inglés.
Este nuevo lenguaje de IA puede traducir cualquier par entre 100 idiomas y de las 4,450 posibles combinaciones de idiomas, traduce 1,100 de ellas directamente.
Esta es una innovación en el campo de los traductores, ya que contrasta mucho comparado con los modelos multilingües anteriores, los cuales en una gran medida dependen del idioma inglés como una capa intermedia de traducción.
El sistema fue creado para ayudar a Facebook a entregar mejores contenidos en 160 lenguas a sus más de 2,000 millones de usuarios de todo el mundo.
«Este hito es la culminación de años de trabajo», dijo la investigadora asistente Angela Fan en un blog. El nuevo modelo es más preciso que cualquier otro sistema porque no se apoya en el idioma inglés como paso intermedio para la traducción:
Al traducir, por ejemplo, del chino al francés, la mayoría de los modelos multilinguales anglocéntricos, traduce a inglés y de inglés a francés, debido a que los datos en inglés son los más ampliamente disponibles.
¿Cómo funciona?
El nuevo traductor fue entrenado en aproximadamente 7,500 millones de pares de oraciones y para procesar este conjunto de datos tan grande, lo que más utilizaron fue la curación automatizada. También utilizaron rastreadores web para extraer miles de millones de oraciones de la web y además utilizaron otro modelo de lenguaje llamado FastText para identificar el idioma.
Es de hacer notar que según Facebook no han utilizado ningún dato proveniente de sus aplicaciones y servicios.
Posteriormente procesaron datos a través del programa LASER 2.0, que desarrollado previamente por el laboratorio de investigación de inteligencia artificial de Facebook. Este programa utiliza aprendizaje automático no supervisado (no requiere datos etiquetados manualmente) y fue necesario para hacer coincidir oraciones por su significado en distintos idiomas.