Saltar al Contenido
Este artículo ha sido traducido del japonés usando IA
Leer en japonés
Este artículo es de Dominio Público (CC0). Siéntete libre de usarlo libremente. CC0 1.0 Universal

El Mecanismo de Atención como Microinteligencia Virtual

La IA generativa actual es una tecnología de IA que ha florecido gracias a la invención de los Transformers, lo que supuso un gran avance.

El Mecanismo de Atención es lo que caracteriza al Transformer en una sola frase. Esto se expresa sucintamente en el título del artículo que anunció el Transformer: "Attention is All You Need" (La atención es todo lo que necesitas).

Esto tiene sus raíces en el hecho de que los investigadores de IA de la época estaban realizando diversos esfuerzos y pruebas para permitir que la IA manejara el lenguaje natural con la misma habilidad que los humanos, nombrando y publicando artículos sobre varios métodos exitosos.

Muchos investigadores creían que al combinar estos múltiples mecanismos que funcionaban bien de diversas maneras, la IA que pudiera manejar el lenguaje natural como los humanos surgiría gradualmente. Por lo tanto, estaban trabajando en encontrar nuevos mecanismos que pudieran funcionar en combinación con otros mecanismos, y en descubrir las combinaciones óptimas de estos mecanismos.

Sin embargo, el Transformer derrocó esta sabiduría convencional. El mensaje de que es innecesario combinar varios mecanismos, y que todo lo que se necesita es el mecanismo de atención, se expresa en el título del artículo.

Por supuesto, el propio Transformer incorpora varios mecanismos, pero no hay duda de que, entre ellos, el mecanismo de atención fue particularmente innovador y distintivo.

Visión General del Mecanismo de Atención

El mecanismo de atención es un sistema que, durante el proceso de tratar el lenguaje natural palabra por palabra, puede aprender a qué palabras de las muchas que le preceden en una oración debe "prestar atención" al procesar una palabra determinada.

Esto le permite comprender con precisión a qué se refieren palabras como "este", "ese" o "el mencionado" (que se refieren a palabras contenidas en oraciones anteriores), o frases como "la oración de apertura", "el segundo ejemplo listado" o "el párrafo anterior" (que indican posiciones en el texto).

Además, puede interpretar correctamente las palabras incluso cuando los modificadores están distantes dentro de una oración, e incluso cuando un texto se vuelve largo, puede interpretar sin perder el contexto de la palabra actual entre otras oraciones.

Esta es la utilidad de la "atención".

Por el contrario, esto también significa que al interpretar la palabra que se está procesando actualmente, las palabras innecesarias se enmascaran y se eliminan de la interpretación.

Al retener solo las palabras necesarias para la interpretación de una palabra determinada y eliminar las irrelevantes, el conjunto de palabras a interpretar se mantiene limitado a un pequeño número, sin importar cuán largo sea el texto, evitando así que la densidad de interpretación se diluya.

Inteligencia Virtual

Ahora, cambiando ligeramente de tema, he estado pensando en el concepto de inteligencia virtual.

Actualmente, al usar IA generativa para fines empresariales, si se consolida toda la información dentro de una empresa y se proporciona como conocimiento a la IA generativa, el gran volumen de conocimiento puede, de hecho, dificultar que la IA lo maneje adecuadamente.

Por esta razón, funciona mejor dividir el conocimiento por tarea, preparando chats de IA para cada tarea o creando herramientas de IA especializadas para operaciones específicas.

Esto implica que, para tareas complejas, se vuelve necesario combinar estos chats y herramientas de IA basados en conocimiento segmentado.

Esta es una limitación actual al usar IA generativa, pero incluso con IA generativa futura, para tareas específicas, centrarse solo en el conocimiento requerido para esa tarea debería producir mayor precisión.

En cambio, creo que la IA generativa futura podrá cambiar internamente entre los conjuntos de conocimiento necesarios según la situación, incluso sin que los humanos tengan que segmentar el conocimiento.

Esta capacidad es la inteligencia virtual. Es como una máquina virtual que puede ejecutar múltiples sistemas operativos diferentes en una sola computadora. Significa que, dentro de una inteligencia, pueden funcionar múltiples inteligencias virtuales con diferentes especializaciones.

Incluso la IA generativa actual ya puede simular discusiones entre varias personas o generar historias con múltiples personajes. Por lo tanto, la inteligencia virtual no es una habilidad especial, sino una extensión de la IA generativa actual.

Microinteligencia Virtual

El mecanismo de la inteligencia virtual, que restringe el conocimiento necesario según la tarea, realiza algo similar al mecanismo de atención.

Es decir, es similar al mecanismo de atención en que se enfoca solo en el conocimiento relevante dependiendo de la tarea que se está procesando actualmente.

Por el contrario, el mecanismo de atención puede decirse que es un mecanismo que realiza algo parecido a la inteligencia virtual. Sin embargo, la inteligencia virtual que estoy considerando es un mecanismo que selecciona conocimiento relevante de un conjunto de conocimiento, mientras que el mecanismo de atención opera sobre un conjunto de palabras.

Por esta razón, el mecanismo de atención puede denominarse microinteligencia virtual.

Mecanismo de Atención Explícito

Si vemos el mecanismo de atención como microinteligencia virtual, entonces, a la inversa, la inteligencia virtual que mencioné antes puede realizarse construyendo un mecanismo de atención macro.

Y este mecanismo de atención macro no necesita ser añadido a la estructura interna de los grandes modelos de lenguaje ni implicar entrenamiento de redes neuronales.

Puede ser simplemente una oración explícita escrita en lenguaje natural, como "Al realizar la Tarea A, consulte el Conocimiento B y el Conocimiento C".

Esto clarifica el conocimiento necesario para la Tarea A. Esta oración en sí misma es un tipo de conocimiento.

Esto podría llamarse un mecanismo de atención explícito. Esta oración puede describirse como conocimiento de atención, que establece explícitamente el conocimiento en el que se debe enfocar al realizar la Tarea A.

Además, este conocimiento de atención puede ser generado o actualizado por la IA generativa.

Si una tarea falla debido a la falta de conocimiento, entonces, como lección aprendida, el conocimiento de atención puede ser actualizado para incluir conocimiento adicional que debe ser referenciado para esa tarea.

Conclusión

El mecanismo de atención ha mejorado drásticamente las capacidades de la IA generativa.

No fue simplemente un mecanismo que funcionó bien por casualidad; como hemos visto aquí, el propio mecanismo de reducir dinámicamente la información a la que se debe referir en cada situación parece ser la esencia de la inteligencia avanzada.

Y al igual que la inteligencia virtual y el conocimiento de atención explícito, el mecanismo de atención también es clave para avanzar recursivamente la inteligencia en varias capas.