A IA generativa atual é uma tecnologia de IA que floresceu com a invenção do Transformer como um grande avanço.
O Mecanismo de Atenção pode ser descrito como a característica definidora do Transformer. Isso é expressado sucintamente no título do artigo que anunciou o Transformer: "Attention Is All You Need" (Atenção é Tudo o que Precisas).
O contexto para isso é que os investigadores de IA da época estavam a fazer vários esforços e a envolver-se em tentativas e erros para permitir que a IA lidasse com a linguagem natural tão habilmente quanto os humanos, nomeando métodos bem-sucedidos e publicando artigos sobre eles.
Muitos investigadores acreditavam que, ao combinar estes múltiplos mecanismos eficazes de diversas formas, poderiam gradualmente criar uma IA capaz de lidar com a linguagem natural como os humanos. Estavam focados em descobrir novos mecanismos que pudessem funcionar em combinação com outros, e em encontrar as combinações ótimas desses mecanismos.
No entanto, o Transformer derrubou esta sabedoria convencional. A mensagem de que não havia necessidade de combinar vários mecanismos, e que apenas o Mecanismo de Atenção era necessário, era evidente no título do artigo.
Embora o próprio Transformer certamente incorpore vários mecanismos, não há dúvida de que o Mecanismo de Atenção foi particularmente inovador e distintivo entre eles.
Visão Geral do Mecanismo de Atenção
O Mecanismo de Atenção é um sistema que permite à IA aprender a quais palavras, entre as muitas contidas em frases precedentes, deve prestar atenção ao processar uma palavra específica em linguagem natural.
Isso permite que a IA compreenda com precisão a que uma palavra se refere, por exemplo, ao lidar com demonstrativos como "isto", "aquilo" ou "o já mencionado" (apontando para uma palavra em uma frase anterior), ou referências posicionais como "a frase inicial", "o segundo exemplo listado" ou "o parágrafo anterior".
Além disso, pode interpretar corretamente modificadores mesmo que estejam distantes numa frase, e mesmo em textos longos, pode interpretar palavras sem perder o contexto a que a palavra atual se refere, evitando que se perca entre outras frases.
Essa é a utilidade da "atenção".
Inversamente, isso significa que, ao interpretar a palavra que está a ser processada, palavras desnecessárias são mascaradas e removidas da interpretação.
Ao reter apenas as palavras essenciais para interpretar uma dada palavra e remover as irrelevantes, o conjunto de palavras a ser interpretado permanece limitado a algumas, independentemente do comprimento do texto, evitando assim que a densidade interpretativa se dilua.
Inteligência Virtual
Agora, mudando um pouco de assunto, tenho vindo a contemplar o conceito de inteligência virtual.
Atualmente, ao utilizar IA generativa para fins empresariais, se toda a informação de uma empresa for consolidada e fornecida como uma única base de conhecimento à IA, o volume excessivo de conhecimento pode tornar-se avassalador, levando ao fenómeno de a IA não conseguir processá-la adequadamente.
Por esta razão, é mais eficaz separar o conhecimento por tarefa, preparando chats de IA para cada tarefa ou criando ferramentas de IA especializadas para operações específicas.
Consequentemente, ao realizar tarefas complexas, torna-se necessário combinar estes chats ou ferramentas de IA, cada um com o seu conhecimento segregado.
Embora esta represente uma limitação atual da IA generativa, fundamentalmente, mesmo com futuras IAs generativas, focar-se apenas no conhecimento necessário para uma tarefa específica deverá levar a uma maior precisão.
Em vez disso, acredito que a futura IA generativa será capaz de diferenciar e utilizar internamente o conhecimento necessário de acordo com a situação, mesmo sem que os humanos tenham de segmentar esse conhecimento.
Esta capacidade é a inteligência virtual. É como uma máquina virtual que pode executar múltiplos sistemas operativos diferentes num único computador. Significa que, dentro de uma única inteligência, múltiplas inteligências virtuais com diferentes especializações podem funcionar.
Mesmo a IA generativa atual já consegue simular discussões entre várias pessoas ou gerar histórias com múltiplas personagens. Portanto, a inteligência virtual não é uma capacidade especial, mas sim uma extensão da IA generativa atual.
Micro Inteligência Virtual
O mecanismo da inteligência virtual, que restringe o conhecimento necessário de acordo com a tarefa, executa algo semelhante ao Mecanismo de Atenção.
Por outras palavras, é análogo ao Mecanismo de Atenção no sentido de que se foca e processa apenas o conhecimento relevante com base na tarefa atualmente em execução.
Inversamente, o Mecanismo de Atenção pode ser considerado um mecanismo que realiza algo semelhante à inteligência virtual. No entanto, enquanto a inteligência virtual que eu concebo seleciona conhecimento relevante de uma coleção de conhecimento, o Mecanismo de Atenção opera na unidade de uma coleção de palavras.
Por esta razão, o Mecanismo de Atenção pode ser chamado de Micro Inteligência Virtual.
Mecanismo de Atenção Explícita
Se encararmos o Mecanismo de Atenção como micro inteligência virtual, então, inversamente, a inteligência virtual que mencionei anteriormente pode ser alcançada construindo um mecanismo de atenção macro.
E este mecanismo de atenção macro não precisa de ser adicionado à estrutura interna de grandes modelos de linguagem nem envolver aprendizagem por redes neurais.
Pode ser simplesmente uma declaração explícita escrita em linguagem natural, como: "Ao executar a Tarefa A, consulte o Conhecimento B e o Conhecimento C."
Isto clarifica o conhecimento necessário para a Tarefa A. Esta declaração em si é um tipo de conhecimento.
Isto poderia ser chamado de Mecanismo de Atenção Explícita. Esta declaração pode ser considerada Conhecimento de Atenção, que articula explicitamente o conhecimento no qual se deve focar ao realizar a Tarefa A.
Além disso, este Conhecimento de Atenção pode ser gerado ou atualizado pela IA generativa.
Se uma tarefa falhar devido à falta de conhecimento, o Conhecimento de Atenção pode ser atualizado para incluir conhecimento adicional como referência para essa tarefa, com base nesta reflexão.
Conclusão
O Mecanismo de Atenção avançou dramaticamente as capacidades da IA generativa.
Não foi meramente um mecanismo que por acaso funcionou bem; antes, como vimos aqui, o próprio mecanismo de reduzir dinamicamente a informação a ser referenciada para cada situação parece ser a essência da inteligência avançada.
E, tal como a inteligência virtual e o conhecimento de atenção explícita, o Mecanismo de Atenção é também a chave para melhorar recursivamente a inteligência em várias camadas.