El aprendizaje automático tradicional opera dentro de un paradigma en el que las computadoras, expertas en el cálculo numérico, aprenden utilizando datos numéricos y adquieren parámetros cuantificados.
Sin embargo, los humanos somos capaces de aprender no solo a través de mecanismos numéricos, sino también a través del lenguaje. Organizamos y registramos experiencias en palabras, y luego recordamos, leemos y utilizamos esas palabras.
Los Grandes Modelos de Lenguaje (LLM) pueden de manera similar describir el conocimiento en palabras y utilizarlo leyendo palabras.
Al aprovechar los LLM como procesadores de lenguaje natural, el aprendizaje automático basado en el lenguaje natural se vuelve posible, en lugar de depender únicamente del aprendizaje automático basado en números.
Por esta razón, el advenimiento de los LLM ha abierto un nuevo campo: el aprendizaje automático del lenguaje natural.
El preentrenamiento de los LLM es una forma de aprendizaje automático numérico tradicional. El aprendizaje automático del lenguaje natural que se discute aquí se refiere a un nuevo tipo de aprendizaje automático que utiliza LLM preentrenados.
Modelo Básico de Aprendizaje Automático del Lenguaje Natural
El aprendizaje automático del lenguaje natural posee aspectos similares al aprendizaje automático numérico convencional, así como aspectos completamente diferentes.
Para comprender primero el concepto de aprendizaje automático del lenguaje natural, describamos un modelo básico centrándonos en las partes que se asemejan al aprendizaje automático numérico tradicional.
A partir de ahora, un Gran Modelo de Lenguaje preentrenado se denominará LLM. Tenga en cuenta que los parámetros del LLM no cambian en absoluto durante este proceso de aprendizaje.
El modelo básico es un modelo de aprendizaje supervisado, dirigido a problemas de clasificación.
Para los datos de aprendizaje, se preparan múltiples pares de oraciones de entrada y sus clasificaciones como respuestas correctas.
Por ejemplo, supongamos que una empresa tiene un Departamento de Asuntos Generales y un Departamento de Asuntos Administrativos.
Estos dos departamentos tienen roles distintos. Para oraciones de entrada como "La bombilla de la oficina está fundida", "Olvidé mi tarjeta de acceso" o "Quiero reservar el salón principal de la sede", la clasificación indica qué departamento, Asuntos Generales o Asuntos Administrativos, es el responsable.
De estos datos de entrenamiento, solo las oraciones de entrada se extraen y se introducen en el LLM.
Aquí, restringimos intencionalmente la respuesta mediante un mensaje del sistema como: "Por favor, indique si el departamento responsable de esta consulta es Asuntos Generales o Asuntos Administrativos. No incluya ningún carácter que no sea 'Asuntos Generales' o 'Asuntos Administrativos' en su respuesta".
Inicialmente, el LLM genera una respuesta sin conocimiento de esta empresa. Naturalmente, podría ser incorrecta o, ocasionalmente, correcta por casualidad.
Para cada respuesta, un sistema de enseñanza determina si es correcta o incorrecta. Luego, la combinación de la oración de entrada, la respuesta del LLM y el resultado del juicio se guarda en una base de conocimiento.
Este proceso se repite para aproximadamente la mitad de los datos de entrenamiento.
Para la mitad restante de los datos de entrenamiento, toda la información registrada en la base de conocimiento se añade al mensaje del sistema para el LLM, y se realiza el mismo proceso.
En este punto, la base de conocimiento contiene información sobre la división de tareas entre los departamentos de Asuntos Generales y Asuntos Administrativos de esta empresa, por lo que la probabilidad de una respuesta correcta debería ser mayor que con la primera mitad de los datos.
De esta manera, un sistema que combina un LLM y una base de conocimiento puede aprender la división de tareas para los departamentos de Asuntos Generales y Asuntos Administrativos de una empresa.
El mecanismo de aprendizaje en sí es similar al aprendizaje automático numérico tradicional. La diferencia es que los resultados del aprendizaje se reflejan en la base de conocimiento, no en los parámetros de la red neuronal dentro del LLM. Además, la base de conocimiento registra lenguaje natural, no valores numéricos.
Este es el modelo básico de aprendizaje automático del lenguaje natural.
Realidad del Modelo Básico
Como se darán cuenta rápidamente quienes utilizan los LLM, este modelo básico carece de realismo.
Esto se debe a que no hay necesidad de pasar por la molestia de que un sistema de enseñanza determine los juicios de correcto/incorrecto; simplemente se podrían introducir los datos de entrenamiento directamente en el prompt del sistema desde el principio.
Sin embargo, al aplicar el modelo básico y alterar ligeramente el escenario, este adquiere realismo.
Por ejemplo, imaginemos que el Departamento de Asuntos Generales y el Departamento de Asuntos Administrativos crean conjuntamente una mesa de consulta, y un humano asigna manualmente cada consulta entrante al departamento apropiado.
Se construye un sistema sencillo para añadir estas consultas y sus resultados de asignación a una base de conocimiento.
Luego, utilizando esta base de conocimiento, el LLM puede tomar el relevo de los humanos y asignar nuevas consultas a los departamentos.
En este caso, si el LLM asigna incorrectamente una consulta destinada a Asuntos Administrativos a Asuntos Generales, el personal de Asuntos Generales reasignará la consulta de vuelta a Asuntos Administrativos. Esta información de reasignación también se registra en la base de conocimiento.
Este sencillo mecanismo para registrar los logs de asignación, combinado con un LLM y una base de conocimiento, constituiría un modelo de aprendizaje automático de lenguaje natural supervisado realista.
El punto clave aquí, para reiterar, es que los parámetros de la red neuronal dentro del LLM no cambian en absoluto. Además, el resultado del aprendizaje de retroalimentación es una colección de oraciones en lenguaje natural, no valores numéricos.
Y, sin duda, este sistema implica aprendizaje automático, no aprendizaje humano.
Por lo tanto, esta es una nueva forma de aprendizaje automático: el aprendizaje automático del lenguaje natural.
Fortalezas del Aprendizaje Automático del Lenguaje Natural
A diferencia del aprendizaje automático numérico, el aprendizaje del lenguaje natural ofrece muchas ventajas.
En una palabra, su característica definitoria es una eficiencia de aprendizaje abrumadoramente alta.
El aprendizaje automático numérico generalmente requiere una gran cantidad de datos de entrenamiento y aprendizaje iterativo. Además, el preprocesamiento de los datos de entrenamiento también es necesario.
Se necesita una gran cantidad de datos de entrenamiento porque las características que se van a aprender no están contenidas dentro de una sola pieza de datos, sino que se distribuyen entre una vasta cantidad de datos.
Por esta razón, se requieren datos de entrenamiento del orden del cuadrado de la dimensionalidad de las características verdaderamente deseadas.
El aprendizaje iterativo es necesario para garantizar que los parámetros de la red neuronal se aprendan de manera adecuada sin caer en mínimos locales, lo que requiere mantener el cambio de parámetros pequeño con cada retroalimentación.
El preprocesamiento de los datos de entrenamiento, como la normalización y la extracción de bordes, es necesario para resaltar las características verdaderamente deseadas. Este preprocesamiento también exige un esfuerzo significativo.
Por ejemplo, si la división de tareas entre el Departamento de Asuntos Administrativos y el Departamento de Asuntos Generales se aprendiera utilizando una red neuronal tradicional, y sus características tuvieran 50 dimensiones, se requerirían al menos aproximadamente 1.000 o más instancias de datos de entrenamiento. Además, estas más de 1.000 instancias de datos podrían necesitar ser aprendidas iterativamente unas 100 veces para lograr una precisión de aprendizaje adecuada.
Además, si este conjunto de 1.000 instancias de datos de entrenamiento contiene palabras extrañas, variaciones en la ortografía o una variedad de órdenes de palabras y estructuras de oraciones, la eficiencia del aprendizaje disminuye y se pueden aprender características no relacionadas.
Por lo tanto, el preprocesamiento para eliminar palabras extrañas, estandarizar la terminología para eliminar variaciones y unificar el orden de las palabras y la sintaxis es indispensable.
En contraste, el aprendizaje automático del lenguaje natural requiere menos datos de entrenamiento, no hay iteración con los mismos datos de entrenamiento y, a menudo, no hay preprocesamiento.
Si las características para la división de tareas entre el Departamento de Asuntos Administrativos y el Departamento de Asuntos Generales tienen 50 dimensiones, 50 piezas de información correspondientes a cada dimensión son suficientes.
Además, esto no significa que se requieran 50 oraciones separadas.
Una sola oración como "Las tareas relacionadas con A, B, C y D son manejadas por el Departamento de Asuntos Administrativos" puede abarcar cuatro dimensiones de información.
Además, al abstraer el lenguaje, la información de múltiples dimensiones se puede agregar. Una oración como "El mantenimiento de los consumibles y las instalaciones del edificio es responsabilidad del Departamento de Asuntos Administrativos" agrega una amplia gama de información dimensional, incluido el reemplazo de bombillas y el mal funcionamiento de las puertas automáticas.
Se puede decir que esta abstracción reduce los datos de entrenamiento al aprovechar el conocimiento preentrenado y las capacidades de razonamiento del LLM.
Y, fundamentalmente, el aprendizaje del lenguaje natural no requiere aprendizaje iterativo. Una vez que la oración mencionada anteriormente se agrega a la base de conocimiento, el aprendizaje se completa.
Además, el preprocesamiento del conocimiento es innecesario. Incluso si las explicaciones del Departamento de Asuntos Administrativos o del Departamento de Asuntos Generales se mezclan dentro de varios textos, aún pueden utilizarse como conocimiento.
O, como en el ejemplo anterior, los datos brutos, como los registros de consultas y asignaciones, se pueden utilizar inmediatamente como datos de entrenamiento sin preprocesamiento.
Así, el aprendizaje automático del lenguaje natural puede aprender de manera mucho más eficiente que el aprendizaje automático numérico.
Conclusión
En comparación con las capacidades de computación numérica de alta velocidad de los ordenadores, la habilidad de procesamiento del lenguaje natural de los grandes modelos de lenguaje es bastante lenta.
Sin embargo, el aprendizaje automático del lenguaje natural permite un aprendizaje eficiente, superando con creces la brecha entre la computación numérica de alta velocidad y el procesamiento lento del lenguaje natural.
Además, los grandes modelos de lenguaje, que han logrado un progreso asombroso a través del aprendizaje numérico, parecen estar acercándose a los límites de la mejora del rendimiento mediante un simple escalamiento, según las leyes de escala.
En tal escenario, es altamente plausible que el enfoque se desplace hacia la mejora de las capacidades a través del aprendizaje automático del lenguaje natural.