Passer au contenu
Cet article a été traduit du japonais à l'aide de l'IA
Lire en japonais
Cet article est dans le domaine public (CC0). N'hésitez pas à l'utiliser librement. CC0 1.0 Universal

Système d'Intelligence Artificielle Apprenante : Le concept ALIS

Je souhaite ici organiser le Système d'Intelligence Artificielle Apprenante (ALIS) en détaillant son concept, ses principes, sa conception de base et sa méthodologie de développement.

Concept

L'IA générative actuelle, principalement les grands modèles linguistiques, est entraînée sur la base d'un apprentissage supervisé par réseaux neuronaux.

Dans le cadre d'un processus d'apprentissage, nous définissons cet apprentissage des réseaux neuronaux comme de l'apprentissage inné.

L'ALIS intègre un processus d'apprentissage acquis, distinct de l'apprentissage inné, pour permettre une inférence qui combine les deux processus d'apprentissage.

Dans cet apprentissage acquis, les connaissances acquises sont accumulées en dehors du réseau neuronal et utilisées pendant l'inférence.

Par conséquent, le cœur technique de l'ALIS réside dans l'extraction, le stockage, ainsi que la sélection et l'utilisation de connaissances réutilisables lors de l'inférence.

De plus, l'ALIS n'est pas seulement une technologie élémentaire unique, mais une technologie système qui combine l'apprentissage inné et l'apprentissage acquis.

Éléments d'un Système d'Intelligence Apprenante

L'ALIS fonctionne selon le principe que l'apprentissage inné existant et l'apprentissage acquis envisagé à l'avenir suivent le même cadre d'apprentissage et d'inférence.

Pour expliquer les principes d'apprentissage de l'ALIS, nous définissons cinq éléments d'un système d'intelligence apprenante.

Le premier est le processeur intelligent. Il s'agit d'un système de traitement qui effectue des inférences en utilisant des connaissances et extrait des connaissances pour l'apprentissage.

Les grands modèles linguistiques (LLM) et certaines parties du cerveau humain sont des exemples concrets de processeurs intelligents.

Le deuxième est le magasin de connaissances. Il s'agit d'un emplacement de stockage où les connaissances extraites peuvent être sauvegardées et récupérées au besoin.

Dans les LLM, le magasin de connaissances est constitué des paramètres du réseau neuronal. Chez l'humain, il correspond à la mémoire à long terme dans le cerveau.

Le troisième est le monde. Il s'agit de l'environnement externe tel que perçu par un système d'intelligence apprenante, comme les humains ou l'ALIS.

Pour les humains, le monde est la réalité elle-même. Dans le cas des LLM, un mécanisme qui reçoit la sortie du LLM et lui fournit une rétroaction peut être considéré comme équivalent au monde.

Le quatrième est la mémoire d'état. Il s'agit d'un composant interne temporaire de type mémoire utilisé par un système d'intelligence apprenante pendant l'inférence.

Dans les LLM, il s'agit de l'espace mémoire utilisé pendant l'inférence, connu sous le nom d'états cachés. Chez l'humain, il correspond à la mémoire à court terme.

Le cinquième est le cadre. Il s'agit, pour ainsi dire, d'une structure de pensée. Dans la terminologie des systèmes d'intelligence apprenante, il fait référence aux critères de sélection des connaissances nécessaires pendant l'inférence et à une structure logique de l'espace d'états pour organiser la mémoire d'état.

Dans les LLM, il s'agit de la structure sémantique des états cachés, et son contenu est généralement ambigu et incompréhensible pour les humains. De plus, la sélection des connaissances est intégrée au mécanisme d'attention, qui sélectionne les jetons existants auxquels se référer pour chaque jeton traité.

Chez l'humain, comme mentionné ci-dessus, il s'agit d'une structure de pensée. Lorsque l'on pense en utilisant un cadre spécifique, un ensemble particulier de savoir-faire est rappelé de la mémoire à long terme et chargé dans la mémoire à court terme. Ensuite, les informations actuellement perçues sont organisées selon le cadre de pensée pour comprendre la situation.

Principes d'un Système d'Intelligence Apprenante

Un système d'intelligence apprenante fonctionne comme suit :

Un processeur intelligent agit sur le monde. Le monde, en réponse à cette action, renvoie des résultats.

Le processeur intelligent extrait de ces résultats des connaissances réutilisables et les stocke dans le magasin de connaissances.

Lorsqu'il agit itérativement sur le monde, le processeur intelligent sélectionne des connaissances dans le magasin de connaissances et les utilise pour modifier ses actions.

C'est le mécanisme de base.

Cependant, fondamentalement, les méthodes d'extraction, de stockage, de sélection et d'utilisation des connaissances déterminent si le système peut réaliser un apprentissage significatif.

Les humains possèdent des mécanismes qui gèrent efficacement cette extraction, ce stockage, cette sélection et cette utilisation des connaissances, ce qui leur permet d'apprendre.

Les réseaux neuronaux, y compris les LLM, voient leur extraction gérée par des enseignants externes, mais ils possèdent des mécanismes de stockage, de sélection et d'utilisation. Cela leur permet d'apprendre tant qu'ils sont dotés d'un enseignant.

De plus, un système d'intelligence apprenante peut également apprendre l'extraction, le stockage et la sélection des cadres, ainsi que leurs méthodes d'utilisation au sein de la mémoire d'état, en tant que connaissances, permettant ainsi un apprentissage plus complexe.

Types de Connaissances

En se basant sur ces principes, lors de la conception de l'apprentissage acquis, il est nécessaire de clarifier la forme que prendra cette connaissance acquise.

On pourrait envisager une méthode où les connaissances acquises sont également apprises séparément en tant que paramètres de réseaux neuronaux.

Cependant, les connaissances acquises n'ont pas à être limitées uniquement aux paramètres des réseaux neuronaux. Une option pratique est une connaissance textuelle en langage naturel.

Les connaissances textuelles en langage naturel peuvent être extraites et utilisées en tirant parti des capacités de traitement du langage naturel des LLM. De plus, comme elles peuvent être traitées comme des données dans les systèmes informatiques standards, le stockage et la sélection sont également aisés.

En outre, les connaissances textuelles en langage naturel sont faciles à vérifier, à comprendre et, dans certains cas, même à modifier par les humains et les autres LLM.

Elles peuvent également être partagées, fusionnées ou divisées avec d'autres systèmes d'intelligence apprenante.

Pour ces raisons, la connaissance acquise dans le concept ALIS sera initialement conçue pour cibler la connaissance textuelle en langage naturel.

Mémoire d'État Acquise et Cadres

Nous avons expliqué les avantages de choisir le texte en langage naturel comme format pour les connaissances acquises.

De même, le texte en langage naturel peut également être utilisé pour la mémoire d'état et les cadres d'inférence.

Les cadres, en tant que structures conceptuelles, peuvent être stockés et utilisés dans le magasin de connaissances comme des connaissances textuelles en langage naturel.

Même lors de l'initialisation ou de la mise à jour des états basés sur la structure définie par un cadre, une mémoire d'état au format texte peut être utilisée.

En concevant non seulement les connaissances acquises, mais aussi les cadres et la mémoire d'état au format texte, l'ALIS peut exploiter les capacités de traitement du langage naturel des LLM pour l'apprentissage acquis et l'inférence en général.

Connaissances Formelles

Les connaissances acquises, les cadres et la mémoire d'état peuvent être exprimés non seulement en texte en langage naturel, mais aussi dans des langages formels ou des modèles formels plus rigoureux.

Bien que j'aie écrit « sélectionner », l'objectif de l'ALIS est d'incorporer plusieurs mécanismes distincts d'apprentissage de connaissances acquises pour permettre une utilisation hybride de l'apprentissage inné et acquis.

Les connaissances représentées par des langages formels ou des modèles formels peuvent être rendues plus précises et non ambiguës.

De plus, si un cadre est exprimé à l'aide d'un langage ou d'un modèle formel et qu'un état initial est déployé dans la mémoire d'état, alors une simulation ou un développement logique peut être effectué avec un modèle rigoureux par un processeur intelligent capable de traiter des modèles formels, plutôt que par un LLM.

Les langages de programmation sont un excellent exemple de tels langages ou modèles formels.

À mesure que le système apprend sur le monde, s'il peut exprimer les lois et les concepts qui s'y trouvent sous forme de programme dans un cadre, alors il peut les simuler sur un ordinateur.

Colonne 1 : Types de Connaissances

Lorsque l'on organise les connaissances au sein d'un système d'intelligence apprenante, il devient clair qu'elles peuvent être largement classées en trois types de systèmes de connaissances et deux types d'état.

Les trois systèmes de connaissances sont : la connaissance des paramètres de réseau, gérée par les réseaux neuronaux ; la connaissance naturelle, exprimée en langage naturel ; et la connaissance formelle, exprimée en langages formels.

Les deux types d'état sont sans état (stateless) et avec état (stateful).

La connaissance des paramètres de réseau sans état est une connaissance intuitive, similaire à celle que l'on trouve dans l'IA d'apprentissage profond. Les caractéristiques des chats et des chiens, qui ne peuvent être explicitement pensées ou identifiées verbalement, peuvent être apprises comme une connaissance des paramètres de réseau sans état.

La connaissance des paramètres de réseau avec état est une connaissance qui émerge à travers des processus flous et itératifs, comme dans l'IA générative.

La connaissance naturelle sans état est une connaissance, comme les significations liées à des mots individuels.

La connaissance naturelle avec état est une connaissance qui inclut le contexte au sein des phrases.

Certaines connaissances naturelles sont intrinsèquement incluses dans la connaissance des paramètres de réseau avec état, mais il existe aussi des connaissances qui peuvent être acquises à partir de texte en langage naturel.

La connaissance formelle sans état est une connaissance qui peut être exprimée sous forme de formules mathématiques sans itération. La connaissance formelle avec état est une connaissance qui peut être exprimée sous forme de programme.

On peut également utiliser sa propre mémoire à court terme comme mémoire d'état pour les connaissances naturelles et formelles.

Cependant, comme il s'agit de mémoire à court terme, il est difficile de maintenir un état stable. De plus, elle n'est pas apte à conserver des états formalisés et non ambigus.

D'autre part, le papier, les ordinateurs et les smartphones peuvent être utilisés comme mémoire d'état pour noter ou éditer du texte en langage naturel, des langages formels ou des modèles formels.

Généralement, les données sur papier ou sur ordinateur sont souvent perçues comme un magasin de connaissances destiné à mémoriser des informations, mais elles peuvent aussi servir de mémoire d'état pour organiser des pensées.

Ainsi, il est évident que les humains mènent des activités intellectuelles en utilisant pleinement ces trois systèmes de connaissances et deux types d'état.

L'ALIS aussi, a le potentiel d'améliorer considérablement ses capacités en permettant et en renforçant les activités intellectuelles qui exploitent ces mêmes trois systèmes de connaissances et deux types d'état.

En particulier, l'ALIS a l'avantage de pouvoir utiliser de vastes magasins de connaissances et une grande mémoire d'état. De plus, elle peut facilement effectuer des tâches intellectuelles en préparant de nombreuses instances de chacun et en les alternant ou en les combinant.

Colonne 2 : Orchestration Intelligente

Bien qu'il y ait un avantage à pouvoir accumuler une vaste quantité de connaissances dans un magasin de connaissances, la quantité de connaissances ne se traduit pas simplement par un avantage dans l'activité intellectuelle en raison des limitations sur le nombre de jetons qu'une IA générative peut traiter à la fois et du bruit généré par des connaissances non pertinentes.

Inversement, en divisant de manière appropriée le magasin de connaissances et en le transformant en magasins de connaissances spécialisés à haute densité, chacun contenant les connaissances nécessaires à une tâche intellectuelle spécifique, les problèmes de limites de jetons et de bruit peuvent être atténués.

En contrepartie, chaque magasin de connaissances spécialisé ne devient utilisable que pour sa tâche intellectuelle désignée.

De nombreuses activités intellectuelles sont des composites complexes de diverses tâches intellectuelles. Par conséquent, en divisant les connaissances en magasins de connaissances spécialisés selon le type de tâche intellectuelle et en subdivisant l'activité intellectuelle en tâches individuelles, l'ALIS peut exécuter l'ensemble de l'activité intellectuelle en basculant de manière appropriée entre ces magasins de connaissances spécialisés.

Ceci est analogue à un orchestre, composé de musiciens professionnels jouant d'instruments différents et d'un chef d'orchestre dirigeant l'ensemble.

Grâce à cette technologie système, l'orchestration intelligente, l'ALIS pourra organiser ses activités intellectuelles.

Conception de Base et Méthode de Développement de l'ALIS

À partir de maintenant, nous allons organiser le développement de l'ALIS.

Comme déjà discuté dans les principes et les colonnes, l'ALIS est intrinsèquement conçue pour une expansion facile des fonctions et des ressources. Ceci s'explique par le fait que l'essence de l'ALIS ne réside pas dans des fonctions spécifiques, mais dans les processus d'extraction, de stockage, de sélection et d'utilisation des connaissances.

Par exemple, plusieurs types de mécanismes d'extraction de connaissances peuvent être fournis, et la conception du système permet de choisir librement parmi eux ou de les utiliser simultanément.

De plus, l'ALIS elle-même peut être amenée à effectuer cette sélection.

De même, le stockage, la sélection et l'utilisation peuvent également être librement choisis ou parallélisés.

Par conséquent, l'ALIS peut être développée de manière incrémentale et agile, sans avoir besoin de concevoir l'ensemble de la fonctionnalité selon une approche en cascade.

Les Débuts de l'ALIS

Concevons maintenant une ALIS très simple.

L'interface utilisateur de base sera une IA de chat familière. Initialement, l'entrée de l'utilisateur est transmise directement au LLM. La réponse du LLM est affichée sur l'interface, et le système attend la prochaine entrée de l'utilisateur.

Dès réception de la nouvelle entrée, le LLM reçoit non seulement cette nouvelle entrée, mais aussi l'historique complet de la conversation entre l'utilisateur et le LLM.

Derrière l'interface utilisateur de cette IA de chat, un mécanisme est préparé pour extraire des connaissances réutilisables de l'historique de chat.

Ce mécanisme peut être ajouté au système d'IA de chat comme un processus qui s'exécute à la fin d'une conversation ou à intervalles réguliers. Bien sûr, un LLM est utilisé pour l'extraction de connaissances.

Ce LLM reçoit le concept et les principes de l'ALIS, ainsi que le savoir-faire en matière d'extraction de connaissances, sous forme d'invite système. Si les connaissances ne sont pas extraites comme prévu, l'invite système doit être améliorée par essais et erreurs.

Les connaissances extraites de l'historique de chat sont stockées directement dans un lac de connaissances. Un lac de connaissances est simplement un mécanisme de stockage de connaissances dans un état plat avant qu'elles ne soient structurées.

Ensuite, un mécanisme de structuration est préparé pour faciliter la sélection des connaissances du lac de connaissances.

Cela implique la mise en place d'un magasin de vecteurs d'intégration pour la recherche sémantique, comme utilisé dans le RAG typique, et d'index de mots-clés.

D'autres possibilités incluent la génération de graphes de connaissances plus avancés ou la classification par catégories.

Cette collection d'informations structurées pour le lac de connaissances sera appelée une base de connaissances. L'ensemble de cette base de connaissances et du lac de connaissances constituera le magasin de connaissances.

Ensuite, le magasin de connaissances est intégré au traitement de l'interface utilisateur du chat.

Ceci est fondamentalement identique à un mécanisme RAG général. Pour une entrée utilisateur, les connaissances pertinentes sont sélectionnées dans le magasin de connaissances et transmises au LLM avec l'entrée utilisateur.

Cela permet au LLM d'utiliser automatiquement les connaissances lors du traitement de l'entrée utilisateur.

De cette manière, les connaissances augmentent à chaque conversation avec l'utilisateur, ce qui permet de réaliser une ALIS simple qui utilise les connaissances accumulées lors des conversations passées.

Scénario Simple

Par exemple, imaginez un scénario où un utilisateur développe une application web à l'aide de cette ALIS simple.

L'utilisateur signalerait que le code proposé par le LLM a entraîné une erreur. Ensuite, l'utilisateur et le LLM collaboreraient pour résoudre le problème. Supposons qu'ils découvrent que la spécification de l'API externe dont le LLM avait connaissance était obsolète, et que l'adaptation à la dernière spécification de l'API a résolu le problème.

Dans ce cas, la connaissance que la spécification d'API du LLM était ancienne et quelle est la dernière spécification d'API pourrait être accumulée dans le magasin de connaissances à partir de ce fil de discussion.

Alors, lors de la création d'un programme utilisant la même API la prochaine fois, l'ALIS pourrait tirer parti de ces connaissances pour générer un programme basé sur la dernière spécification d'API dès le départ.

Amélioration de l'ALIS Initiale

Cependant, pour que cela se produise, ces connaissances doivent être sélectionnées en réponse à l'entrée de l'utilisateur. Il se peut que ces connaissances ne soient pas directement liées à l'entrée de l'utilisateur, car le nom de l'API problématique est peu susceptible d'apparaître dans l'entrée initiale de l'utilisateur.

Dans un tel cas, le nom de l'API n'apparaîtrait pour la première fois que dans la réponse du LLM.

Par conséquent, nous allons légèrement étendre l'ALIS simple en ajoutant un mécanisme pour les commentaires de pré-vérification et les commentaires de post-vérification.

Les commentaires de pré-vérification sont similaires au récent « mode de réflexion » des LLM. Nous préparons une mémoire capable de contenir du texte en tant que mémoire d'état, et nous demandons au LLM, via une invite système, d'effectuer des commentaires de pré-vérification dès réception de l'entrée de l'utilisateur.

Le résultat du commentaire de pré-vérification du LLM est ensuite placé dans la mémoire d'état, et sur la base de ce résultat, des connaissances sont sélectionnées dans le magasin de connaissances.

Ensuite, l'historique du chat, le résultat du commentaire de pré-vérification, les connaissances correspondant à l'entrée de l'utilisateur, et les connaissances correspondant au résultat du commentaire de pré-vérification sont transmis au LLM pour recevoir sa sortie.

De plus, pour le résultat renvoyé par le LLM, des connaissances sont recherchées dans le magasin de connaissances. En incluant toutes les connaissances trouvées, le LLM est ensuite invité à effectuer une post-vérification.

Si des problèmes sont détectés, ils sont renvoyés au LLM de chat, accompagnés des points problématiques et des raisons des commentaires/retours.

En offrant des opportunités de sélectionner des connaissances lors des commentaires de pré-vérification et des commentaires de post-vérification, nous pouvons augmenter les chances d'utiliser les connaissances accumulées.

Perspectives

Le processus de création de l'ALIS initiale et l'ajout d'améliorations pour pallier ses faiblesses relèvent précisément du développement agile, démontrant que l'ALIS peut être améliorée de manière incrémentale.

De plus, comme illustré, l'ALIS initiale est particulièrement adaptée au développement logiciel. Cela s'explique par le fait qu'il s'agit d'un domaine très demandé et où les connaissances peuvent être clairement accumulées.

C'est un domaine où les résultats sont sans ambiguïté, tout en nécessitant et en bénéficiant considérablement d'une accumulation de connaissances par essais et erreurs et de manière itérative.

En outre, le développement de l'ALIS étant lui-même du développement logiciel, le fait que les développeurs d'ALIS puissent également être des utilisateurs d'ALIS est un aspect attrayant.

De plus, parallèlement au système ALIS, le lac de connaissances peut être partagé ouvertement sur des plateformes comme GitHub.

Cela permettrait à de nombreuses personnes de contribuer à l'amélioration du système ALIS et à l'accumulation de connaissances, chacun bénéficiant des avantages et accélérant encore plus efficacement le développement de l'ALIS.

Bien entendu, le partage des connaissances ne se limite pas aux développeurs d'ALIS ; il peut être recueilli auprès de tous les développeurs de logiciels utilisant l'ALIS.

La nature en langage naturel des connaissances offre deux avantages supplémentaires.

Le premier avantage est que les connaissances peuvent toujours être utilisées même lorsque les modèles LLM changent ou sont mis à jour.

Le second avantage est que le vaste lac de connaissances accumululé peut être utilisé comme ensemble de données de pré-entraînement pour les LLM. Il existe deux façons de l'utiliser : comme réglage fin, ou pour le pré-entraînement des LLM lui-même.

Dans tous les cas, si un LLM qui a appris de manière innée à partir des connaissances accumulées dans le lac de connaissances peut être utilisé, le développement de logiciels deviendra encore plus efficace.

De plus, le développement logiciel implique divers processus tels que l'analyse des exigences, la conception, l'implémentation, les tests, l'exploitation et la maintenance. Des connaissances spécialisées existent également pour chaque domaine logiciel et plateforme. En créant un mécanisme pour diviser la vaste quantité de connaissances accumulées selon ces perspectives, un orchestre ALIS peut être formé.

Ainsi, les technologies élémentaires pour l'ALIS sont en place. L'étape cruciale restante consiste à expérimenter pratiquement diverses méthodes — telles que le savoir-faire en matière d'extraction de connaissances, la sélection appropriée des connaissances, la segmentation des connaissances spécialisées et l'utilisation de la mémoire d'état — afin de découvrir des approches efficaces. À mesure que la complexité augmente, le temps de traitement et les coûts d'utilisation du LLM augmenteront également, nécessitant une optimisation.

Ces processus d'essais-erreurs et d'optimisations peuvent être avancés de manière orientée vers l'apprentissage par le développement et le raffinement de cadres.

Initialement, les développeurs, en tant qu'utilisateurs, intégreront probablement des cadres dans l'ALIS par essais et erreurs. Cependant, même dans ce cas, le LLM lui-même peut être chargé de générer des idées de cadres.

Ensuite, en incorporant à l'ALIS un cadre pour améliorer et découvrir des cadres, basé sur les résultats reçus du monde et les connaissances extraites, l'ALIS elle-même effectuera des essais et erreurs et des optimisations de manière axée sur l'apprentissage.

L'ALIS dans le Monde Réel

Une fois que l'ALIS aura été affinée à ce stade, elle devrait être capable d'acquérir des connaissances dans une grande variété de domaines, ne se limitant pas au monde du développement logiciel.

À l'instar du développement logiciel, l'ALIS devrait étendre son champ d'application à diverses activités intellectuelles que les humains réalisent à l'aide d'ordinateurs.

Même dans de telles activités purement intellectuelles, l'ALIS possédera une qualité similaire à celle d'une IA incarnée (embodied AI) par rapport à son monde cible.

Ceci s'explique par le fait qu'elle reconnaît la frontière entre elle-même et le monde, agit sur le monde à travers cette frontière et peut percevoir les informations reçues du monde.

Lorsque cette frontière avec le monde est physiquement visible et localisée en un seul endroit, nous la qualifions généralement de corps.

Cependant, même si la frontière est invisible et distribuée spatialement, la structure de perception et d'action à travers une frontière reste la même que lorsque l'on possède un corps physique.

En ce sens, une ALIS réalisant des activités intellectuelles peut être considérée comme possédant virtuellement les caractéristiques d'une IA incarnée.

Et, si l'ALIS est affinée à un stade où elle peut apprendre de manière appropriée même dans des mondes nouveaux et inconnus, il est possible que l'ALIS puisse être intégrée en tant que partie d'une véritable IA incarnée qui possède un corps physique réel.

De cette manière, l'ALIS sera finalement appliquée au monde réel et commencera à en apprendre.