A principios de este mes, un gigante tecnológico chino destronó en silencio a Microsoft y Google en una competencia en curso en IA. La compañía era Baidu, el equivalente más cercano de China a Google, y la competencia era la Evaluación de comprensión del idioma general, también conocida como GLUE.
GLUE es un punto de referencia ampliamente aceptado sobre qué tan bien un sistema de inteligencia artificial comprende el lenguaje humano. Consiste en nueve pruebas diferentes para cosas como elegir los nombres de personas y organizaciones en una oración y descubrir a qué se refiere un pronombre como “it” cuando hay múltiples antecedentes potenciales. Por lo tanto, un modelo de lenguaje con puntajes altos en GLUE puede manejar diversas tareas de comprensión de lectura. De un puntaje total de 100, el puntaje promedio de persona alrededor de 87 puntos. Baidu es ahora el primer equipo en superar los 90 con su modelo, ERNIE.
los tabla de clasificación pública para GLUE está cambiando constantemente, y otro equipo probablemente superará a Baidu pronto. Pero lo que es notable sobre el logro de Baidu es que ilustra cómo la investigación de IA se beneficia de una diversidad de contribuyentes. Los investigadores de Baidu tuvieron que desarrollar una técnica específica para el idioma chino para construir ERNIE (que significa “Representación mejorada a través de kNowledge IntEgration”). Sin embargo, sucede que la misma técnica también mejora la comprensión del inglés.
Predecesor de ERNIE
Para apreciar a ERNIE, considere el modelo en el que se inspiró: BERT de Google. (Sí, ambos llevan el nombre del plaza Sésamo caracteres.)
Antes de que se creara BERT (“Representaciones de codificador bidireccional de transformadores”) a fines de 2018, los modelos en lenguaje natural no eran tan geniales. Eran buenos para predecir la siguiente palabra en una oración, por lo tanto, adecuados para aplicaciones como Autocompletar, pero no podían sostener un solo tren de pensamiento ni siquiera en un pequeño pasaje. Esto se debió a que no entendían el significado, como a qué podría referirse la palabra “eso”.
Pero BERT cambió eso. Los modelos anteriores aprendieron a predecir e interpretar el significado de una palabra considerando solo el contexto que apareció antes o después, nunca ambos al mismo tiempo. Eran, en otras palabras, unidireccional.
BERT, por el contrario, considera el contexto antes y después de una palabra de una vez, haciéndolo bidireccional. Lo hace utilizando una técnica conocida como “enmascaramiento”. En un pasaje de texto dado, BERT oculta al azar el 15% de las palabras y luego trata de predecirlas a partir de las restantes. Esto le permite hacer predicciones más precisas porque tiene el doble de pistas para trabajar. En la oración “El hombre fue al ___ a comprar leche”, por ejemplo, tanto el principio como el final de la oración dan pistas sobre la palabra que falta. El ___ es un lugar al que puede ir y un lugar donde puede comprar leche.
El uso del enmascaramiento es una de las principales innovaciones detrás de mejoras dramáticas en tareas de lenguaje natural y es parte de la razón por la cual modelos como el infame GPT-2 de OpenAI pueden escribir una prosa extremadamente convincente sin desviarse de una tesis central.
Del inglés al chino y viceversa
Cuando los investigadores de Baidu comenzaron a desarrollar su propio modelo de lenguaje, querían desarrollar la técnica de enmascaramiento. Pero se dieron cuenta de que necesitaban ajustarlo para acomodar el idioma chino.
En inglés, la palabra sirve como la unidad semántica, lo que significa que una palabra sacada completamente de contexto aún contiene significado. No se puede decir lo mismo de los caracteres en chino. Si bien ciertos caracteres tienen un significado inherente, como el fuego (火, huŏ), agua (水, shuĭ) o madera (木, mù), la mayoría no lo hace hasta que están unidos con otros. El personaje 灵 (abadejo), por ejemplo, puede significar inteligente (机灵, jīlíng) o alma (灵魂, línghún), dependiendo de su coincidencia. Y los caracteres en un nombre propio como Boston (波士顿, Bōshìdùn) o los EE. UU. (美国, měiguó) no significan lo mismo una vez separados.
Entonces, los investigadores entrenaron a ERNIE en una nueva versión de enmascaramiento que oculta cadenas de caracteres en lugar de caracteres individuales. También lo entrenaron para distinguir entre cadenas significativas y aleatorias para que pudiera enmascarar las combinaciones de caracteres correctas en consecuencia. Como resultado, ERNIE tiene una mayor comprensión de cómo las palabras codifican la información en chino y es mucho más preciso para predecir las piezas que faltan. Esto resulta útil para aplicaciones como traducción y recuperación de información de un documento de texto.
Los investigadores descubrieron rápidamente que este enfoque también funciona mejor para el inglés. Aunque no tan a menudo como el chino, el inglés también tiene cadenas de palabras que expresan un significado diferente de la suma de sus partes. Los nombres propios como “Harry Potter” y expresiones como “quitar el viejo bloque” no se pueden analizar separándolos en palabras individuales.
Entonces para la oración:
Harry Potter es una serie de novelas de fantasía escritas por J. K. Rowling.
BERT podría enmascararlo de la siguiente manera:
(máscara) Potter es una serie (máscara) de novelas de fantasía (máscara) de J. (máscara) Rowling.
Pero ERNIE lo enmascararía así:
Harry Potter es (máscara) (máscara) (máscara) novelas de fantasía de (máscara) (máscara) (máscara).
ERNIE aprende predicciones más sólidas basadas en el significado en lugar de patrones estadísticos de uso de palabras.
Una diversidad de ideas
La última versión de ERNIE también utiliza otras técnicas de entrenamiento. Considera el orden de las oraciones y las distancias entre ellas, por ejemplo, para comprender la progresión lógica de un párrafo. Sin embargo, lo más importante es que utiliza un método llamado entrenamiento continuo que le permite entrenar en nuevos datos y nuevas tareas sin olvidar las que aprendió antes. Esto le permite mejorar y realizar mejor una amplia gama de tareas a lo largo del tiempo con una mínima interferencia humana.
Baidu utiliza activamente ERNIE para ofrecer a los usuarios resultados de búsqueda más aplicables, eliminar historias duplicadas en su fuente de noticias y mejorar la capacidad de su asistente de inteligencia artificial Xiao Du para responder con precisión a las solicitudes. También ha descrito la última arquitectura de ERNIE en un papel que se presentará en la conferencia de la Asociación para el Avance de la Inteligencia Artificial el próximo año. De la misma manera que su equipo se basó en el trabajo de Google con BERT, los investigadores esperan que otros también se beneficien de su trabajo con ERNIE.
“Cuando comenzamos este trabajo, estábamos pensando específicamente en ciertas características del idioma chino”, dice Hao Tian, el arquitecto jefe de Baidu Research. “Pero rápidamente descubrimos que era aplicable más allá de eso”.
Para recibir más historias como esta directamente en su bandeja de entrada, Regístrate para nuestro boletín de IA nominado por Webby The Algorithm. Es gratis.