Pular para o Conteúdo
Este artigo foi traduzido do japonês usando IA
Ler em japonês
Este artigo está em Domínio Público (CC0). Sinta-se à vontade para usá-lo livremente. CC0 1.0 Universal

O Mecanismo de Atenção como Microinteligência Virtual

A atual IA generativa é uma tecnologia de IA que floresceu graças à invenção dos Transformers, que representaram um grande avanço.

O Mecanismo de Atenção é o que caracteriza o Transformer numa única frase. Isso é sucintamente expresso no título do artigo que anuncia o Transformer: "Attention is All You Need" (Atenção é Tudo o que Precisas).

Isto tem as suas raízes no facto de os investigadores de IA da época estarem a fazer vários esforços e tentativas para permitir que a IA lidasse com a linguagem natural tão habilmente quanto os humanos, nomeando e publicando artigos sobre vários métodos bem-sucedidos.

Muitos investigadores acreditavam que, ao combinar estes múltiplos mecanismos bem-sucedidos de diversas formas, a IA capaz de lidar com a linguagem natural como os humanos emergiria gradualmente. Estavam, portanto, a trabalhar na procura de novos mecanismos que pudessem funcionar em combinação com outros mecanismos e na descoberta das combinações ideais desses mecanismos.

No entanto, o Transformer derrubou esta sabedoria convencional. A mensagem de que é desnecessário combinar vários mecanismos, e que tudo o que é necessário é o mecanismo de atenção, é expressa no título do artigo.

Claro que o próprio Transformer incorpora vários mecanismos, mas não há dúvida de que, entre eles, o mecanismo de atenção foi particularmente inovador e distintivo.

Visão Geral do Mecanismo de Atenção

O mecanismo de atenção é um sistema que, durante o processo de tratamento da linguagem natural palavra a palavra, pode aprender a quais das muitas palavras precedentes numa frase deve "prestar atenção" ao processar uma determinada palavra.

Isto permite-lhe compreender com precisão a que se referem palavras como "este", "esse" ou "o supracitado" (que se referem a palavras contidas em frases anteriores), ou frases como "a frase inicial", "o segundo exemplo listado" ou "o parágrafo anterior" (que indicam posições no texto).

Além disso, pode interpretar corretamente as palavras mesmo quando os modificadores estão distantes dentro de uma frase, e mesmo quando um texto se torna longo, pode interpretar sem perder o contexto da palavra atual entre outras frases.

Esta é a utilidade da "atenção".

Inversamente, isto também significa que, ao interpretar a palavra que está a ser processada, as palavras desnecessárias são mascaradas e removidas da interpretação.

Ao reter apenas as palavras necessárias para a interpretação de uma dada palavra e remover as irrelevantes, o conjunto de palavras a interpretar permanece limitado a um pequeno número, independentemente do comprimento do texto, evitando assim que a densidade de interpretação se dilua.

Inteligência Virtual

Mudando um pouco de assunto, tenho pensado no conceito de inteligência virtual.

Atualmente, ao utilizar a IA generativa para fins comerciais, se consolidarmos todas as informações de uma empresa e as fornecermos como conhecimento à IA generativa, o volume excessivo de conhecimento pode, na verdade, dificultar que a IA o manuseie adequadamente.

Por esta razão, funciona melhor dividir o conhecimento por tarefa, preparando conversas de IA para cada tarefa ou criando ferramentas de IA especializadas para operações específicas.

Isto implica que, para tarefas complexas, se torna necessário combinar estas conversas e ferramentas de IA baseadas em conhecimento segmentado.

Esta é uma limitação atual ao usar a IA generativa, mas mesmo com a futura IA generativa, para tarefas específicas, focar apenas no conhecimento necessário para essa tarefa deve resultar numa maior precisão.

Em vez disso, acredito que a futura IA generativa será capaz de alternar internamente entre os conjuntos de conhecimento necessários dependendo da situação, mesmo sem que os humanos tenham de segmentar o conhecimento.

Esta capacidade é a inteligência virtual. É como uma máquina virtual que pode executar múltiplos sistemas operativos diferentes num único computador. Significa que, dentro de uma única inteligência, múltiplas inteligências virtuais com diferentes especializações podem funcionar.

Mesmo a atual IA generativa já consegue simular discussões entre várias pessoas ou gerar histórias com múltiplas personagens. Portanto, a inteligência virtual não é uma capacidade especial, mas sim uma extensão da atual IA generativa.

Microinteligência Virtual

O mecanismo da inteligência virtual, que restringe o conhecimento necessário de acordo com a tarefa, executa algo semelhante ao mecanismo de atenção.

Ou seja, é semelhante ao mecanismo de atenção na medida em que se concentra apenas no conhecimento relevante, dependendo da tarefa que está a ser processada.

Inversamente, o mecanismo de atenção pode ser considerado um mecanismo que concretiza algo como a inteligência virtual. No entanto, a inteligência virtual que estou a considerar é um mecanismo que seleciona o conhecimento relevante a partir de um conjunto de conhecimentos, enquanto o mecanismo de atenção opera sobre um conjunto de palavras.

Por esta razão, o mecanismo de atenção pode ser chamado de microinteligência virtual.

Mecanismo de Atenção Explícito

Se encararmos o mecanismo de atenção como microinteligência virtual, então, inversamente, a inteligência virtual que mencionei anteriormente pode ser realizada construindo um mecanismo de macroatenção.

E este mecanismo de macroatenção não precisa de ser adicionado à estrutura interna de grandes modelos de linguagem nem de envolver treino de redes neurais.

Pode ser simplesmente uma frase explícita escrita em linguagem natural, como "Ao realizar a Tarefa A, consulte o Conhecimento B e o Conhecimento C."

Isso clarifica o conhecimento necessário para a Tarefa A. Esta frase em si é um tipo de conhecimento.

Isto poderia ser chamado de mecanismo de atenção explícito. Esta frase pode ser descrita como conhecimento de atenção, que declara explicitamente o conhecimento no qual se deve focar ao realizar a Tarefa A.

Além disso, este conhecimento de atenção pode ser gerado ou atualizado por IA generativa.

Se uma tarefa falhar devido à falta de conhecimento, então, como uma lição aprendida, o conhecimento de atenção pode ser atualizado para incluir conhecimento adicional que deve ser referenciado para essa tarefa.

Conclusão

O mecanismo de atenção melhorou drasticamente as capacidades da IA generativa.

Não foi apenas um mecanismo que por acaso funcionou bem; como vimos aqui, o próprio mecanismo de restringir dinamicamente a informação a ser consultada em cada situação parece ser a essência da inteligência avançada.

E, tal como a inteligência virtual e o conhecimento de atenção explícito, o mecanismo de atenção é também a chave para o avanço recursivo da inteligência em várias camadas.