El aprendizaje automático tradicional opera dentro de un paradigma donde las computadoras, expertas en el cálculo numérico, aprenden de datos numéricos y adquieren parámetros numéricos.
Por otro lado, somos capaces de aprender no solo a través de mecanismos numéricos, sino también a través del lenguaje. Organizamos y registramos experiencias como palabras, y luego recordamos o leemos esas palabras para utilizarlas.
Los modelos de lenguaje grandes pueden, de manera similar, describir el conocimiento usando palabras y utilizar palabras leyéndolas.
Al aprovechar los modelos de lenguaje grandes, que son procesadores de lenguaje natural, el aprendizaje automático basado en lenguaje natural se vuelve posible, en lugar de solo el aprendizaje automático basado en números.
En consecuencia, la aparición de los modelos de lenguaje grandes ha abierto un nuevo campo: el aprendizaje automático de lenguaje natural.
El pre-entrenamiento de los modelos de lenguaje grandes es el aprendizaje automático numérico tradicional. El aprendizaje automático de lenguaje natural descrito aquí se refiere a una nueva forma de aprendizaje automático que utiliza modelos de lenguaje grandes pre-entrenados.
Modelo Básico de Aprendizaje Automático de Lenguaje Natural
El aprendizaje automático de lenguaje natural posee aspectos que son similares y completamente diferentes al aprendizaje automático numérico tradicional.
Primero, para tener una idea del aprendizaje automático de lenguaje natural, explicaremos las partes que son similares al aprendizaje automático numérico tradicional como un modelo básico.
A partir de este momento, nos referiremos a un modelo de lenguaje grande pre-entrenado como LLM. Tenga en cuenta que los parámetros del LLM no cambian en absoluto durante este proceso de aprendizaje.
El modelo básico es un aprendizaje supervisado, dirigido a un problema de clasificación.
Se preparan múltiples pares de oraciones de entrada y sus clasificaciones como respuestas correctas para los datos de entrenamiento.
Por ejemplo, supongamos que una empresa tiene un Departamento de Asuntos Generales y un Departamento de Asuntos Administrativos.
Estos dos departamentos tienen una división de funciones. Para oraciones de entrada como "La bombilla de la oficina está fundida", "Olvidé mi tarjeta de acceso" o "Quiero reservar el salón principal en la sede", la clasificación indica si el Departamento de Asuntos Generales o el Departamento de Asuntos Administrativos es el responsable.
De estos datos de entrenamiento, solo las oraciones de entrada se extraen y se introducen en el LLM.
Aquí, como un system prompt, restringimos intencionalmente la respuesta indicando: "Por favor, responda qué departamento, Asuntos Generales o Asuntos Administrativos, es responsable de esta consulta. No incluya ningún carácter que no sea 'Asuntos Generales' o 'Asuntos Administrativos' en su respuesta".
Inicialmente, el LLM generará respuestas sin ningún conocimiento de esta empresa. Naturalmente, algunas respuestas serán incorrectas, mientras que otras podrían ser correctas por casualidad.
Para cada respuesta, el sistema de profesor determina si es correcta o incorrecta. Luego, la combinación de la oración de entrada, la respuesta del LLM y el resultado del juicio se guarda en una base de conocimiento.
Este proceso se repite para aproximadamente la mitad de los datos de entrenamiento.
Para la mitad restante de los datos de entrenamiento, se realiza el mismo proceso, pero esta vez toda la información registrada en la base de conocimiento se añade al system prompt para el LLM.
En este punto, la base de conocimiento contiene información sobre la división de funciones entre los departamentos de Asuntos Generales y Asuntos Administrativos de esta empresa, por lo que la probabilidad de obtener respuestas correctas debería ser mayor que con la primera mitad de los datos.
De esta manera, un sistema que combina el LLM y la base de conocimiento puede aprender la división de funciones entre los departamentos de Asuntos Generales y Asuntos Administrativos de esta empresa.
El mecanismo de aprendizaje en sí es similar al aprendizaje automático numérico tradicional. La diferencia es que los resultados del aprendizaje se reflejan en la base de conocimiento, no en los parámetros de la red neuronal dentro del LLM. Y, el lenguaje natural, no los números, se registra en la base de conocimiento.
Este es el modelo básico del aprendizaje automático de lenguaje natural.
Realidad del Modelo Básico
Como cualquiera que utilice los LLM se dará cuenta rápidamente, este modelo básico carece de realismo.
Esto se debe a que, en lugar de pasar por la molestia de que un sistema de profesor determine las respuestas correctas e incorrectas, simplemente se podrían introducir los propios datos de entrenamiento en el system prompt desde el principio.
Sin embargo, al aplicar el modelo básico y alterar ligeramente el escenario, este adquiere realismo.
Por ejemplo, supongamos que los departamentos de Asuntos Generales y Asuntos Administrativos establecen en colaboración una mesa de consulta, y los humanos clasifican individualmente las consultas entrantes al departamento apropiado.
Se puede crear un sistema simple para añadir estas consultas y sus resultados de enrutamiento a una base de conocimiento.
Luego, utilizando esta base de conocimiento, el LLM puede tomar el relevo de los humanos para enrutar nuevas consultas a los departamentos.
En este caso, si el LLM enruta incorrectamente una consulta destinada a Asuntos Administrativos a Asuntos Generales, la persona a cargo en Asuntos Generales re-enrutará la consulta de vuelta a Asuntos Administrativos. Esta información de re-enrutamiento también se registra en la base de conocimiento.
Este simple mecanismo para registrar los registros de enrutamiento, combinado con el sistema de LLM y base de conocimiento, se convertiría en un modelo supervisado realista para el aprendizaje automático de lenguaje natural.
El punto clave aquí, de nuevo, es que los parámetros de la red neuronal dentro del LLM no cambian en absoluto. Y los resultados del aprendizaje por retroalimentación no son valores numéricos, sino colecciones de oraciones en lenguaje natural.
Además, este sistema es inequívocamente un sistema de aprendizaje automático, no de aprendizaje humano.
Por lo tanto, esta es una nueva forma de aprendizaje automático: aprendizaje automático a través del lenguaje natural.
Fortalezas del Aprendizaje Automático de Lenguaje Natural
A diferencia del aprendizaje automático numérico, el aprendizaje de lenguaje natural ofrece muchas ventajas.
En una palabra, su característica definitoria es su abrumadora eficiencia de aprendizaje.
El aprendizaje automático numérico generalmente requiere una gran cantidad de datos de entrenamiento y un aprendizaje iterativo. También es necesario el preprocesamiento de los datos de entrenamiento.
Se necesita una gran cantidad de datos de entrenamiento porque las características que se desean aprender no están contenidas en una sola pieza de datos, sino que están distribuidas en un gran volumen de datos.
Por esta razón, se requieren datos de entrenamiento del orden del cuadrado de la dimensión de las características verdaderamente deseadas.
El aprendizaje iterativo es necesario porque el cambio en los parámetros durante un solo ciclo de retroalimentación debe ser pequeño para asegurar que los parámetros de la red neuronal se aprendan apropiadamente sin caer en óptimos locales.
El preprocesamiento de los datos de entrenamiento, como la normalización y la extracción de bordes, es necesario para resaltar las características verdaderamente deseadas. Este preprocesamiento también requiere un esfuerzo significativo.
Por ejemplo, si la división de tareas entre los departamentos administrativo y de asuntos generales se aprendiera utilizando una red neuronal tradicional, y sus características fueran de 50 dimensiones, se requerirían al menos 1000 o más puntos de datos de entrenamiento. Además, estos más de 1000 puntos de datos podrían necesitar ser iterados aproximadamente 100 veces para lograr una precisión de aprendizaje adecuada.
Además, si estos 1000 puntos de datos contienen palabras extrañas, variaciones en la ortografía de las palabras o una variedad de órdenes de palabras y sintaxis, la eficiencia del aprendizaje disminuirá, o se aprenderán características irrelevantes.
Por lo tanto, el preprocesamiento para eliminar palabras extrañas, estandarizar el vocabulario para eliminar variaciones y unificar el orden de las palabras y la sintaxis es indispensable.
Por otro lado, el aprendizaje automático de lenguaje natural requiere menos datos de entrenamiento, no requiere iteración con los mismos datos de entrenamiento y, en muchos casos, no requiere preprocesamiento.
Si las características de la división de tareas entre los departamentos administrativo y de asuntos generales son de 50 dimensiones, 50 piezas de información correspondientes a cada dimensión suelen ser suficientes.
Además, esto no significa que se requieran 50 oraciones separadas.
Una sola oración como "Las tareas relacionadas con A, B, C y D son manejadas por el departamento administrativo" puede incluir información para cuatro dimensiones.
Además, al abstraer el lenguaje, la información de múltiples dimensiones puede agregarse. Una sola oración como "El departamento administrativo es responsable de los consumibles del edificio y el mantenimiento del equipo" agrega información de una amplia gama de dimensiones, incluida la sustitución de bombillas y el mal funcionamiento de las puertas automáticas.
Esta abstracción aprovecha el conocimiento pre-entrenado y las capacidades de razonamiento del LLM, lo que reduce la cantidad de datos de entrenamiento necesarios.
Y, fundamentalmente, el aprendizaje de lenguaje natural no requiere aprendizaje iterativo. Una vez que la oración mencionada se agrega a la base de conocimiento, el aprendizaje se completa.
Además, el preprocesamiento del conocimiento no es necesario. Incluso si las descripciones de los departamentos administrativo o de asuntos generales se mezclan con varias otras oraciones, aún pueden usarse como conocimiento.
Alternativamente, los datos brutos, como los registros de consultas y asignaciones como en el ejemplo anterior, pueden utilizarse inmediatamente como datos de entrenamiento sin preprocesamiento.
De esta manera, el aprendizaje automático de lenguaje natural puede aprender de manera mucho más eficiente que el aprendizaje automático numérico.
Conclusión
En comparación con las capacidades de cálculo numérico de alta velocidad de las computadoras, las capacidades de procesamiento de lenguaje natural de los modelos de lenguaje grandes son bastante lentas.
Sin embargo, el aprendizaje automático de lenguaje natural permite un aprendizaje más eficiente en comparación con el aprendizaje automático numérico.
Esta eficiencia supera con creces la brecha entre las capacidades de cálculo numérico de alta velocidad y las lentas capacidades de procesamiento de lenguaje natural.
Además, los modelos de lenguaje grandes, que han experimentado una evolución asombrosa a través del aprendizaje numérico, parecen estar acercándose a un límite en la mejora de capacidades mediante la simple ampliación, según las leyes de escalado.
En ese caso, es muy concebible que el enfoque se desplace hacia la mejora de las capacidades a través del aprendizaje automático de lenguaje natural.