Passer au contenu
Cet article a été traduit du japonais à l'aide de l'IA
Lire en japonais
Cet article est dans le domaine public (CC0). N'hésitez pas à l'utiliser librement. CC0 1.0 Universal

Le Mécanisme d'Attention en tant que Micro-Intelligence Virtuelle

L'IA générative actuelle est une technologie d'IA qui a prospéré grâce à l'invention des Transformers, ce qui a représenté une avancée majeure.

Le Mécanisme d'Attention est ce qui caractérise le Transformer en une seule phrase. Cela est succinctement exprimé dans le titre de l'article annonçant le Transformer : "Attention is All You Need."

Ceci trouve son origine dans le fait que les chercheurs en IA de l'époque déployaient divers efforts et essais pour permettre à l'IA de manipuler le langage naturel aussi habilement que les humains, en nommant et en publiant des articles sur diverses méthodes réussies.

De nombreux chercheurs croyaient qu'en combinant ces multiples mécanismes bien fonctionnels de diverses manières, une IA capable de manipuler le langage naturel comme les humains émergerait progressivement. Ils s'efforçaient donc de trouver de nouveaux mécanismes pouvant fonctionner en combinaison avec d'autres mécanismes, et de découvrir les combinaisons optimales de ces mécanismes.

Cependant, le Transformer a renversé cette sagesse conventionnelle. Le message selon lequel il n'est pas nécessaire de combiner divers mécanismes, et que seul le mécanisme d'attention est nécessaire, est exprimé dans le titre de l'article.

Bien sûr, le Transformer lui-même intègre divers mécanismes, mais il ne fait aucun doute que parmi eux, le mécanisme d'attention était particulièrement novateur et distinctif.

Aperçu du Mécanisme d'Attention

Le mécanisme d'attention est un système qui, pendant le processus de traitement du langage naturel mot par mot, peut apprendre à quels mots, parmi les nombreux mots précédents d'une phrase, il doit « prêter attention » lors du traitement d'un mot donné.

Cela lui permet de comprendre avec précision à quoi se réfèrent des mots comme « ceci », « cela » ou « le susmentionné » (qui renvoient à des mots contenus dans des phrases précédentes), ou des expressions comme « la phrase d'ouverture », « le deuxième exemple cité » ou « le paragraphe précédent » (qui indiquent des positions dans le texte).

De plus, il peut interpréter correctement les mots même lorsque les modificateurs sont éloignés au sein d'une phrase, et même lorsqu'un texte devient long, il peut interpréter sans perdre le contexte du mot actuel parmi d'autres phrases.

C'est l'utilité de l'« attention ».

Inversement, cela signifie également que lors de l'interprétation du mot en cours de traitement, les mots inutiles sont masqués et retirés de l'interprétation.

En ne conservant que les mots nécessaires à l'interprétation d'un mot donné et en supprimant ceux qui sont non pertinents, l'ensemble des mots à interpréter reste limité à un petit nombre, quelle que soit la longueur du texte, empêchant ainsi la densité d'interprétation de se diluer.

Intelligence Virtuelle

Maintenant, changeons légèrement de sujet, j'ai réfléchi au concept d'intelligence virtuelle.

Actuellement, lors de l'utilisation de l'IA générative en entreprise, si vous consolidez toutes les informations au sein d'une entreprise et les fournissez comme connaissances à l'IA générative, le volume même de ces connaissances peut en fait rendre difficile pour l'IA de les gérer de manière appropriée.

Pour cette raison, il est plus efficace de diviser les connaissances par tâche, en préparant des chats IA pour chaque tâche ou en créant des outils IA spécialisés pour des opérations spécifiques.

Cela implique que pour les tâches complexes, il devient nécessaire de combiner ces chats et outils IA basés sur des connaissances segmentées.

C'est une limitation actuelle lors de l'utilisation de l'IA générative, mais même avec l'IA générative future, pour des tâches spécifiques, se concentrer uniquement sur les connaissances requises pour cette tâche devrait produire une plus grande précision.

Au lieu de cela, je crois que la future IA générative sera capable de basculer en interne entre les ensembles de connaissances nécessaires en fonction de la situation, sans que les humains aient à segmenter les connaissances.

Cette capacité est l'intelligence virtuelle. C'est comme une machine virtuelle qui peut exécuter plusieurs systèmes d'exploitation différents sur un seul ordinateur. Cela signifie qu'au sein d'une seule intelligence, plusieurs intelligences virtuelles avec des spécialisations différentes peuvent fonctionner.

Même l'IA générative actuelle peut déjà simuler des discussions entre plusieurs personnes ou générer des histoires mettant en scène plusieurs personnages. Par conséquent, l'intelligence virtuelle n'est pas une capacité spéciale, mais plutôt une extension de l'IA générative actuelle.

Micro-Intelligence Virtuelle

Le mécanisme de l'intelligence virtuelle, qui réduit les connaissances nécessaires en fonction de la tâche, accomplit quelque chose de similaire au mécanisme d'attention.

C'est-à-dire qu'il est similaire au mécanisme d'attention en ce qu'il se concentre uniquement sur les connaissances pertinentes en fonction de la tâche en cours de traitement.

Inversement, le mécanisme d'attention peut être considéré comme un mécanisme qui réalise quelque chose de similaire à l'intelligence virtuelle. Cependant, l'intelligence virtuelle que j'envisage est un mécanisme qui sélectionne les connaissances pertinentes à partir d'un ensemble de connaissances, tandis que le mécanisme d'attention opère sur un ensemble de mots.

Pour cette raison, le mécanisme d'attention peut être qualifié de micro-intelligence virtuelle.

Mécanisme d'Attention Explicite

Si nous considérons le mécanisme d'attention comme une micro-intelligence virtuelle, alors inversement, l'intelligence virtuelle que j'ai mentionnée plus tôt peut être réalisée en construisant un mécanisme d'attention macro.

Et ce mécanisme d'attention macro n'a pas besoin d'être ajouté à la structure interne des grands modèles de langage ni d'impliquer un entraînement de réseau neuronal.

Il peut simplement s'agir d'une phrase explicite écrite en langage naturel, telle que « Lors de l'exécution de la Tâche A, se référer à la Connaissance B et à la Connaissance C. »

Cela clarifie les connaissances nécessaires pour la Tâche A. Cette phrase elle-même est une sorte de connaissance.

Cela pourrait être appelé un mécanisme d'attention explicite. Cette phrase peut être décrite comme une connaissance d'attention, qui énonce explicitement les connaissances sur lesquelles il convient de se concentrer lors de l'exécution de la Tâche A.

De plus, cette connaissance d'attention peut être générée ou mise à jour par l'IA générative.

Si une tâche échoue en raison d'un manque de connaissances, alors, en tant que leçon apprise, la connaissance d'attention peut être mise à jour pour inclure des connaissances supplémentaires qui devraient être référencées pour cette tâche.

Conclusion

Le mécanisme d'attention a considérablement amélioré les capacités de l'IA générative.

Ce n'était pas simplement un mécanisme qui fonctionnait bien par hasard ; comme nous l'avons vu ici, le mécanisme même de réduction dynamique des informations à consulter dans chaque situation semble être l'essence de l'intelligence avancée.

Et, à l'instar de l'intelligence virtuelle et de la connaissance d'attention explicite, le mécanisme d'attention est également la clé pour faire progresser récursivement l'intelligence à diverses couches.