Passer au contenu
Cet article a été traduit du japonais à l'aide de l'IA
Lire en japonais
Cet article est dans le domaine public (CC0). N'hésitez pas à l'utiliser librement. CC0 1.0 Universal

Le mécanisme d'attention en tant que micro-intelligence virtuelle

L'IA générative actuelle est une technologie d'IA qui a connu un essor considérable grâce à l'invention du Transformer, qui a constitué une avancée majeure.

Le mécanisme d'attention peut être décrit comme la caractéristique principale du Transformer. Cela est exprimé de manière succincte dans le titre de l'article annonçant le Transformer : « Attention Is All You Need » (L'attention est tout ce dont vous avez besoin).

Le contexte est que les chercheurs en IA de l'époque s'efforçaient et procédaient par essais et erreurs pour permettre à l'IA de traiter le langage naturel aussi habilement que les humains, en nommant les méthodes qui fonctionnaient et en publiant des articles à leur sujet.

De nombreux chercheurs pensaient qu'en combinant ces multiples mécanismes efficaces de diverses manières, ils pourraient progressivement créer une IA capable de traiter le langage naturel comme les humains. Ils se sont concentrés sur la découverte de nouveaux mécanismes pouvant fonctionner en combinaison avec d'autres, et sur la recherche des combinaisons optimales de ces mécanismes.

Cependant, le Transformer a renversé cette sagesse conventionnelle. Le message qu'il n'était pas nécessaire de combiner divers mécanismes et que seul le mécanisme d'attention était nécessaire était évident dans le titre de l'article.

Bien que le Transformer lui-même intègre certainement divers mécanismes, il ne fait aucun doute que le mécanisme d'attention était particulièrement novateur et distinctif parmi eux.

Aperçu du mécanisme d'attention

Le mécanisme d'attention est un système qui permet à l'IA d'apprendre quels mots, parmi les nombreux contenus dans les phrases précédentes, elle doit prendre en compte lors du traitement d'un mot spécifique en langage naturel.

Cela permet à l'IA de comprendre précisément à quoi un mot fait référence, par exemple, lorsqu'il s'agit de démonstratifs comme « ce », « cela » ou « le susmentionné » (qui renvoient à un mot dans une phrase précédente), ou de références positionnelles comme « la phrase d'introduction », « le deuxième exemple cité » ou « le paragraphe précédent ».

De plus, il peut interpréter correctement les modificateurs même s'ils sont éloignés dans une phrase, et même dans des textes longs, il peut interpréter les mots sans perdre le contexte auquel le mot actuel fait référence, l'empêchant de se perdre parmi d'autres phrases.

Telle est l'utilité de l'« attention ».

Inversement, cela signifie que lors de l'interprétation du mot en cours de traitement, les mots inutiles sont masqués et retirés de l'interprétation.

En ne conservant que les mots essentiels à l'interprétation d'un mot donné et en supprimant ceux qui ne sont pas pertinents, l'ensemble des mots à interpréter reste limité à quelques-uns, quelle que soit la longueur du texte, ce qui évite de diluer la densité d'interprétation.

Intelligence virtuelle

Pour changer un peu de sujet, j'ai réfléchi au concept d'« intelligence virtuelle ».

Actuellement, lorsqu'on utilise l'IA générative en entreprise, si toutes les informations d'une société sont consolidées et fournies à l'IA sous forme d'une base de connaissances unique, le volume de connaissances peut devenir trop important, ce qui conduit au phénomène où l'IA ne peut pas les traiter correctement.

C'est pourquoi il est plus efficace de séparer les connaissances par tâche, en préparant des IA conversationnelles pour chaque tâche ou en créant des outils d'IA spécialisés pour des opérations spécifiques.

Par conséquent, lors de l'exécution de tâches complexes, il devient nécessaire de combiner ces IA conversationnelles ou outils d'IA, chacun avec ses connaissances spécifiques.

Bien que cela représente une limitation actuelle de l'IA générative, fondamentalement, même avec l'IA générative future, se concentrer uniquement sur les connaissances requises pour une tâche spécifique devrait conduire à une plus grande précision.

Au lieu de cela, je crois que l'IA générative future sera capable de différencier et d'utiliser en interne les connaissances nécessaires en fonction de la situation, même sans que les humains aient à segmenter ces connaissances.

Cette capacité est l'« intelligence virtuelle ». Elle est similaire à une machine virtuelle qui peut exécuter plusieurs systèmes d'exploitation différents sur un seul ordinateur. Cela signifie qu'au sein d'une seule intelligence, plusieurs intelligences virtuelles avec des spécialisations différentes peuvent fonctionner.

Même l'IA générative actuelle peut déjà simuler des discussions entre plusieurs personnes ou générer des histoires mettant en scène plusieurs personnages. Par conséquent, l'intelligence virtuelle n'est pas une capacité spéciale mais plutôt une extension de l'IA générative actuelle.

Micro-intelligence virtuelle

Le mécanisme d'intelligence virtuelle, qui réduit les connaissances nécessaires en fonction de la tâche, accomplit quelque chose de similaire au mécanisme d'attention.

En d'autres termes, il est analogue au mécanisme d'attention en ce qu'il se concentre sur et traite uniquement les connaissances pertinentes en fonction de la tâche en cours d'exécution.

Inversement, le mécanisme d'attention peut être considéré comme un mécanisme qui réalise quelque chose de similaire à l'intelligence virtuelle. Cependant, alors que l'intelligence virtuelle que j'envisage sélectionne les connaissances pertinentes à partir d'un ensemble de connaissances, le mécanisme d'attention opère à l'unité d'un ensemble de mots.

Pour cette raison, le mécanisme d'attention peut être appelé micro-intelligence virtuelle.

Mécanisme d'attention explicite

Si l'on considère le mécanisme d'attention comme une micro-intelligence virtuelle, alors, inversement, l'intelligence virtuelle que j'ai précédemment mentionnée peut être réalisée en construisant un mécanisme d'attention macro.

Et ce mécanisme d'attention macro n'a pas besoin d'être ajouté à la structure interne des grands modèles linguistiques ni d'impliquer un apprentissage par réseau neuronal.

Il peut s'agir simplement d'une déclaration explicite écrite en langage naturel, telle que : « Lors de l'exécution de la tâche A, se référer aux connaissances B et C. »

Cela clarifie les connaissances requises pour la tâche A. Cette déclaration elle-même est un type de connaissance.

Cela pourrait être appelé un mécanisme d'attention explicite. Cette déclaration peut être considérée comme une connaissance d'attention, qui articule explicitement les connaissances sur lesquelles il convient de se concentrer lors de l'exécution de la tâche A.

De plus, cette connaissance d'attention peut être générée ou mise à jour par l'IA générative.

Si une tâche échoue en raison d'un manque de connaissances, la connaissance d'attention peut être mise à jour pour inclure des connaissances supplémentaires comme référence pour cette tâche, en se basant sur cette réflexion.

Conclusion

Le mécanisme d'attention a considérablement fait progresser les capacités de l'IA générative.

Il ne s'agissait pas seulement d'un mécanisme qui a bien fonctionné par hasard ; au contraire, comme nous l'avons vu ici, le mécanisme même de réduction dynamique des informations à référencer pour chaque situation semble être l'essence de l'intelligence avancée.

Et, à l'instar de l'intelligence virtuelle et de la connaissance d'attention explicite, le mécanisme d'attention est également essentiel pour améliorer de manière récursive l'intelligence à travers diverses couches.