Passer au contenu
Cet article a été traduit du japonais à l'aide de l'IA
Lire en japonais
Cet article est dans le domaine public (CC0). N'hésitez pas à l'utiliser librement. CC0 1.0 Universal

Apprentissage automatique en langage naturel

L'apprentissage automatique traditionnel fonctionne selon un paradigme où les ordinateurs, experts en calcul numérique, apprennent en utilisant des données numériques et acquièrent des paramètres quantifiés.

Cependant, les êtres humains sont capables d'apprendre non seulement par des mécanismes numériques, mais aussi par le langage. Nous organisons et enregistrons nos expériences en mots, puis nous nous les rappelons, les lisons et les utilisons.

Les grands modèles linguistiques (LLM) peuvent de la même manière décrire des connaissances en mots et utiliser ces connaissances en les lisant.

En tirant parti des LLM en tant que processeurs de langage naturel, l'apprentissage automatique basé sur le langage naturel devient possible, plutôt qu'uniquement l'apprentissage automatique basé sur le numérique.

C'est pourquoi l'avènement des LLM a ouvert un nouveau domaine : l'apprentissage automatique en langage naturel.

Le pré-entraînement des LLM est une forme d'apprentissage automatique numérique traditionnel. L'apprentissage automatique en langage naturel abordé ici fait référence à un nouveau type d'apprentissage automatique qui utilise des LLM pré-entraînés.

Modèle de base de l'apprentissage automatique en langage naturel

L'apprentissage automatique en langage naturel présente des aspects similaires à l'apprentissage automatique numérique conventionnel, ainsi que des aspects entièrement différents.

Pour saisir d'abord le concept d'apprentissage automatique en langage naturel, décrivons un modèle de base axé sur les parties qui ressemblent à l'apprentissage automatique numérique traditionnel.

Désormais, un grand modèle linguistique pré-entraîné sera désigné par LLM. Il est à noter que les paramètres du LLM ne changent absolument pas pendant ce processus d'apprentissage.

Le modèle de base est un modèle d'apprentissage supervisé, ciblant les problèmes de classification.

Pour les données d'apprentissage, plusieurs paires de phrases d'entrée et leurs classifications sont préparées comme réponses correctes.

Par exemple, imaginons qu'une entreprise possède un service des Affaires générales et un service des Affaires administratives.

Ces deux services ont des rôles distincts. Pour des phrases d'entrée telles que « L'ampoule du bureau est grillée », « J'ai oublié ma carte d'accès » ou « Je souhaite réserver le grand hall du siège social », la classification indique quel service, Affaires générales ou Affaires administratives, est responsable.

À partir de ces données d'entraînement, seules les phrases d'entrée sont extraites et alimentées dans le LLM.

Ici, nous limitons intentionnellement la réponse via une invite système telle que : « Veuillez indiquer si le service responsable de cette demande est les Affaires générales ou les Affaires administratives. N'incluez aucun caractère autre que « Affaires générales » ou « Affaires administratives » dans votre réponse. »

Initialement, le LLM génère une réponse sans connaissance de cette entreprise. Naturellement, elle peut être incorrecte, ou occasionnellement correcte par hasard.

Pour chaque réponse, un système d'enseignement détermine si elle est correcte ou incorrecte. Ensuite, la combinaison de la phrase d'entrée, de la réponse du LLM et du résultat du jugement est enregistrée dans une base de connaissances.

Ce processus est répété pour environ la moitié des données d'entraînement.

Pour l'autre moitié des données d'entraînement, toutes les informations enregistrées dans la base de connaissances sont ajoutées à l'invite système pour le LLM, et le même processus est effectué.

À ce stade, la base de connaissances contient des informations sur la répartition des tâches entre les services des Affaires générales et des Affaires administratives de cette entreprise, de sorte que la probabilité d'une réponse correcte devrait être plus élevée qu'avec la première moitié des données.

De cette manière, un système combinant un LLM et une base de connaissances peut apprendre la répartition des tâches pour les services des Affaires générales et des Affaires administratives d'une entreprise.

Le mécanisme d'apprentissage lui-même est similaire à l'apprentissage automatique numérique traditionnel. La différence est que les résultats de l'apprentissage sont reflétés dans la base de connaissances, et non dans les paramètres du réseau neuronal au sein du LLM. De plus, la base de connaissances enregistre le langage naturel, et non des valeurs numériques.

C'est le modèle de base de l'apprentissage automatique en langage naturel.

Réalisme du modèle de base

Comme ceux qui utilisent les LLM le comprendront rapidement, ce modèle de base manque de réalisme.

En effet, il n'est pas nécessaire de s'encombrer d'un système d'enseignement pour déterminer les jugements corrects/incorrects ; on pourrait simplement saisir directement les données d'entraînement dans l'invite du système dès le départ.

Cependant, en appliquant le modèle de base et en modifiant légèrement le scénario, il gagne en réalisme.

Par exemple, imaginons que le service des Affaires générales et le service des Affaires administratives créent conjointement un guichet de renseignements, et qu'un humain attribue manuellement chaque demande entrante au service approprié.

Un système simple est conçu pour ajouter ces demandes et leurs résultats d'attribution à une base de connaissances.

Ensuite, en utilisant cette base de connaissances, le LLM peut prendre le relais des humains et attribuer de nouvelles demandes aux services.

Dans ce cas, si le LLM attribue incorrectement une demande destinée aux Affaires administratives aux Affaires générales, le personnel des Affaires générales réaffectera la demande aux Affaires administratives. Cette information de réaffectation est également enregistrée dans la base de connaissances.

Ce mécanisme simple d'enregistrement des journaux d'attribution, combiné à un LLM et à une base de connaissances, constituerait un modèle d'apprentissage automatique en langage naturel supervisé réaliste.

Le point clé ici, pour le répéter, est que les paramètres du réseau neuronal au sein du LLM ne changent absolument pas. De plus, le résultat de l'apprentissage par rétroaction est une collection de phrases en langage naturel, et non des valeurs numériques.

Et, sans aucun doute, ce système implique l'apprentissage automatique, et non l'apprentissage humain.

Par conséquent, il s'agit d'une nouvelle forme d'apprentissage automatique : l'apprentissage automatique en langage naturel.

Atouts de l'apprentissage automatique en langage naturel

Contrairement à l'apprentissage automatique numérique, l'apprentissage en langage naturel offre de nombreux avantages.

En un mot, sa caractéristique principale est une efficacité d'apprentissage écrasante.

L'apprentissage automatique numérique nécessite généralement une grande quantité de données d'entraînement et un apprentissage itératif. De plus, un pré-traitement des données d'entraînement est également nécessaire.

Une grande quantité de données d'entraînement est nécessaire car les caractéristiques à apprendre ne sont pas contenues dans une seule donnée, mais sont distribuées parmi une vaste quantité de données.

Pour cette raison, des données d'entraînement de l'ordre du carré de la dimensionnalité des caractéristiques véritablement désirées sont requises.

L'apprentissage itératif est nécessaire pour garantir que les paramètres du réseau neuronal sont appris de manière appropriée sans tomber dans des minima locaux, ce qui exige de maintenir une petite variation des paramètres à chaque rétroaction.

Le pré-traitement des données d'entraînement, tel que la normalisation et l'extraction de contours, est nécessaire pour mettre en évidence les caractéristiques véritablement désirées. Ce pré-traitement demande également des efforts considérables.

Par exemple, si la répartition des tâches entre le service des Affaires administratives et le service des Affaires générales devait être apprise à l'aide d'un réseau neuronal traditionnel, et si ses caractéristiques étaient de 50 dimensions, il faudrait au moins environ 1 000 instances de données d'entraînement ou plus. De plus, ces plus de 1 000 instances de données pourraient nécessiter d'être apprises de manière itérative environ 100 fois pour atteindre une précision d'apprentissage appropriée.

En outre, si cet ensemble de 1 000 instances de données d'entraînement contient des mots superflus, des variations d'orthographe ou une variété d'ordres de mots et de structures de phrases, l'efficacité de l'apprentissage diminue et des caractéristiques non pertinentes peuvent être apprises.

Par conséquent, un pré-traitement pour supprimer les mots superflus, normaliser la terminologie pour éliminer les variations et unifier l'ordre des mots et la syntaxe est indispensable.

En revanche, l'apprentissage automatique en langage naturel nécessite moins de données d'entraînement, aucune itération avec les mêmes données d'entraînement, et souvent aucun pré-traitement.

Si les caractéristiques de la répartition des tâches entre le service des Affaires administratives et le service des Affaires générales sont de 50 dimensions, 50 informations correspondant à chaque dimension sont suffisantes.

De plus, cela ne signifie pas que 50 phrases distinctes sont requises.

Une seule phrase comme « Les tâches liées à A, B, C et D sont gérées par le service des Affaires administratives » peut englober quatre dimensions d'information.

De plus, en abstrayant le langage, les informations de plusieurs dimensions peuvent être agrégées. Une phrase telle que « L'entretien des consommables et des installations du bâtiment relève de la responsabilité du service des Affaires administratives » agrège un large éventail d'informations dimensionnelles, y compris le remplacement d'ampoules et les dysfonctionnements de portes automatiques.

Cette abstraction peut être considérée comme une réduction des données d'entraînement en tirant parti des connaissances et des capacités de raisonnement pré-entraînées du LLM.

Et, fondamentalement, l'apprentissage en langage naturel ne nécessite pas d'apprentissage itératif. Une fois la phrase mentionnée précédemment ajoutée à la base de connaissances, l'apprentissage est terminé.

De plus, le pré-traitement des connaissances est inutile. Même si les explications du service des Affaires administratives ou du service des Affaires générales sont mélangées à divers textes, elles peuvent toujours être utilisées comme connaissances.

Ou, comme dans l'exemple précédent, des données brutes telles que les enregistrements de demandes et d'affectations peuvent être immédiatement utilisées comme données d'entraînement sans pré-traitement.

Ainsi, l'apprentissage automatique en langage naturel peut apprendre beaucoup plus efficacement que l'apprentissage automatique numérique.

Conclusion

Comparée aux capacités de calcul numérique à grande vitesse des ordinateurs, la capacité de traitement du langage naturel des grands modèles linguistiques est assez lente.

Cependant, l'apprentissage automatique en langage naturel permet un apprentissage efficace, dépassant de loin l'écart entre le calcul numérique à grande vitesse et le traitement du langage naturel lent.

De plus, les grands modèles linguistiques, qui ont réalisé des progrès étonnants grâce à l'apprentissage numérique, semblent approcher les limites de l'amélioration de leurs performances par une simple mise à l'échelle, selon les lois d'échelle.

Dans un tel scénario, il est hautement plausible que l'accent se déplace vers l'amélioration des capacités grâce à l'apprentissage automatique en langage naturel.