La IA generativa actual es una tecnología de IA que floreció con la invención del Transformer, lo que representó un gran avance.
El Mecanismo de Atención puede describirse como la característica definitoria del Transformer. Esto se expresa de forma concisa en el título del artículo que anunció el Transformer: "Attention Is All You Need" (La atención es todo lo que necesitas).
El trasfondo de esto es que los investigadores de IA de la época estaban haciendo diversos esfuerzos y participando en prueba y error para permitir que la IA manejara el lenguaje natural tan hábilmente como los humanos, nombrando métodos exitosos y publicando artículos sobre ellos.
Muchos investigadores creían que, al combinar estos múltiples mecanismos efectivos de diversas maneras, podrían crear gradualmente una IA capaz de manejar el lenguaje natural como los humanos. Se centraron en descubrir nuevos mecanismos que pudieran funcionar en combinación con otros, y en encontrar las combinaciones óptimas de estos mecanismos.
Sin embargo, el Transformer derrocó esta sabiduría convencional. El mensaje de que no había necesidad de combinar varios mecanismos, y que solo se necesitaba el Mecanismo de Atención, era evidente en el título del artículo.
Si bien el Transformer en sí mismo incorpora ciertamente varios mecanismos, no hay duda de que el Mecanismo de Atención fue particularmente innovador y distintivo entre ellos.
Descripción general del mecanismo de atención
El Mecanismo de Atención es un sistema que permite a la IA aprender a qué palabras, entre las muchas contenidas en oraciones precedentes, debe prestar atención al procesar una palabra específica en lenguaje natural.
Esto permite a la IA comprender con precisión a qué se refiere una palabra, por ejemplo, cuando se trata de demostrativos como "este", "ese" o "el mencionado" (apuntando a una palabra en una oración anterior), o referencias posicionales como "la oración inicial", "el segundo ejemplo listado" o "el párrafo precedente".
Además, puede interpretar correctamente los modificadores, incluso si están muy separados en una oración, y aun en textos largos, puede interpretar las palabras sin perder el contexto al que se refiere la palabra actual, evitando que se pierda entre otras oraciones.
Esta es la utilidad de la "atención".
Por el contrario, esto significa que, al interpretar la palabra que se está procesando actualmente, las palabras innecesarias se enmascaran y se eliminan de la interpretación.
Al retener solo las palabras esenciales para interpretar una palabra dada y eliminar las irrelevantes, el conjunto de palabras a interpretar se mantiene limitado a unas pocas, sin importar la longitud del texto, evitando así que la densidad interpretativa se diluya.
Inteligencia Virtual
Ahora, cambiando un poco de tema, he estado contemplando el concepto de inteligencia virtual.
Actualmente, al usar IA generativa para negocios, si toda la información dentro de una empresa se consolida y se proporciona como una única base de conocimiento a la IA, el gran volumen de conocimiento puede volverse abrumador, lo que lleva al fenómeno de que la IA no puede procesarla adecuadamente.
Por esta razón, es más efectivo separar el conocimiento por tarea, preparando chats de IA para cada tarea o creando herramientas de IA especializadas para operaciones específicas.
En consecuencia, al realizar tareas complejas, se hace necesario combinar estos chats o herramientas de IA, cada uno con su conocimiento segregado.
Si bien esto representa una limitación actual de la IA generativa, fundamentalmente, incluso con la IA generativa futura, enfocarse únicamente en el conocimiento requerido para una tarea específica debería conducir a una mayor precisión.
En cambio, creo que la IA generativa futura podrá diferenciar y utilizar internamente el conocimiento necesario según la situación, incluso sin que los humanos tengan que segmentar ese conocimiento.
Esta capacidad es la inteligencia virtual. Es como una máquina virtual que puede ejecutar múltiples sistemas operativos diferentes en una sola computadora. Significa que, dentro de una única inteligencia, múltiples inteligencias virtuales con diferentes especializaciones pueden funcionar.
Incluso la IA generativa actual ya puede simular debates entre varias personas o generar historias con múltiples personajes. Por lo tanto, la inteligencia virtual no es una capacidad especial, sino más bien una extensión de la IA generativa actual.
Micro Inteligencia Virtual
El mecanismo de la inteligencia virtual, que restringe el conocimiento necesario según la tarea, realiza algo similar al Mecanismo de Atención.
En otras palabras, es análogo al Mecanismo de Atención en el sentido de que se enfoca y procesa solo el conocimiento relevante basándose en la tarea que se está ejecutando actualmente.
Por el contrario, el Mecanismo de Atención puede considerarse un mecanismo que realiza algo parecido a la inteligencia virtual. Sin embargo, mientras que la inteligencia virtual que yo concibo selecciona el conocimiento relevante de una colección de conocimiento, el Mecanismo de Atención opera a la unidad de una colección de palabras.
Por esta razón, el Mecanismo de Atención puede denominarse Micro Inteligencia Virtual.
Mecanismo de Atención Explícita
Si consideramos el Mecanismo de Atención como micro inteligencia virtual, entonces, a la inversa, la inteligencia virtual que mencioné anteriormente puede lograrse mediante la construcción de un mecanismo de atención macro.
Y este mecanismo de atención macro no necesita ser añadido a la estructura interna de los grandes modelos de lenguaje ni implicar aprendizaje por redes neuronales.
Puede ser simplemente una declaración explícita escrita en lenguaje natural, como: "Al ejecutar la Tarea A, consulte el Conocimiento B y el Conocimiento C".
Esto aclara el conocimiento requerido para la Tarea A. Esta declaración en sí misma es un tipo de conocimiento.
Esto podría llamarse un Mecanismo de Atención Explícita. Esta declaración puede considerarse Conocimiento de Atención, que articula explícitamente el conocimiento en el que se debe enfocar al realizar la Tarea A.
Además, este Conocimiento de Atención puede ser generado o actualizado por la IA generativa.
Si una tarea falla debido a la falta de conocimiento, el Conocimiento de Atención puede actualizarse para incluir conocimiento adicional como referencia para esa tarea, basándose en esta reflexión.
Conclusión
El Mecanismo de Atención ha avanzado drásticamente las capacidades de la IA generativa.
No fue simplemente un mecanismo que funcionó bien por casualidad; más bien, como hemos visto aquí, el propio mecanismo de reducir dinámicamente la información a la que se debe hacer referencia para cada situación parece ser la esencia de la inteligencia avanzada.
Y, al igual que la inteligencia virtual y el conocimiento de atención explícita, el Mecanismo de Atención también es clave para mejorar recursivamente la inteligencia a través de varias capas.