L'apprentissage automatique traditionnel opère dans un paradigme où les ordinateurs, experts en calcul numérique, apprennent à partir de données numériques et acquièrent des paramètres numériques.
D'autre part, nous sommes capables d'apprendre non seulement par des mécanismes numériques, mais aussi par le langage. Nous organisons et enregistrons nos expériences sous forme de mots, puis nous rappelons ou lisons ces mots pour les utiliser.
Les grands modèles linguistiques peuvent de manière similaire décrire des connaissances à l'aide de mots et utiliser des mots en les lisant.
En exploitant les grands modèles linguistiques, qui sont des processeurs de langage naturel, l'apprentissage automatique basé sur le langage naturel devient possible, plutôt que le seul apprentissage automatique basé sur les nombres.
Par conséquent, l'avènement des grands modèles linguistiques a ouvert un nouveau domaine : l'apprentissage automatique basé sur le langage naturel.
Le pré-entraînement des grands modèles linguistiques est un apprentissage automatique numérique traditionnel. L'apprentissage automatique basé sur le langage naturel décrit ici fait référence à une nouvelle forme d'apprentissage automatique qui utilise des grands modèles linguistiques pré-entraînés.
Modèle de base de l'apprentissage automatique basé sur le langage naturel
L'apprentissage automatique basé sur le langage naturel présente des aspects à la fois similaires et totalement différents de l'apprentissage automatique numérique traditionnel.
Tout d'abord, pour mieux comprendre l'apprentissage automatique basé sur le langage naturel, nous allons expliquer les parties similaires à l'apprentissage automatique numérique traditionnel en tant que modèle de base.
À partir de maintenant, nous ferons référence à un grand modèle linguistique pré-entraîné sous l'acronyme LLM. Veuillez noter que les paramètres du LLM ne changent absolument pas pendant ce processus d'apprentissage.
Le modèle de base est un apprentissage supervisé, ciblant un problème de classification.
Plusieurs paires de phrases d'entrée et leurs classifications sont préparées comme réponses correctes pour les données d'entraînement.
Par exemple, imaginons qu'une entreprise dispose d'un service des Affaires Générales et d'un service des Affaires Administratives.
Ces deux services ont une répartition des tâches. Pour des phrases d'entrée telles que "L'ampoule du bureau est grillée", "J'ai oublié ma carte d'accès" ou "Je veux réserver le grand hall au siège social", la classification indique si le service des Affaires Générales ou le service des Affaires Administratives est responsable.
À partir de ces données d'entraînement, seules les phrases d'entrée sont extraites et alimentées dans le LLM.
Ici, comme invite système, nous restreignons intentionnellement la réponse en déclarant : "Veuillez indiquer quel service, Affaires Générales ou Affaires Administratives, est responsable de cette demande. N'incluez aucun caractère autre que 'Affaires Générales' ou 'Affaires Administratives' dans votre réponse."
Initialement, le LLM générera des réponses sans aucune connaissance de cette entreprise. Naturellement, certaines réponses seront incorrectes, tandis que d'autres pourraient être correctes par hasard.
Pour chaque réponse, le système enseignant détermine si elle est correcte ou incorrecte. Ensuite, la combinaison de la phrase d'entrée, de la réponse du LLM et du résultat du jugement est enregistrée dans une base de connaissances.
Ce processus est répété pour environ la moitié des données d'entraînement.
Pour la moitié restante des données d'entraînement, le même processus est effectué, mais cette fois, toutes les informations enregistrées dans la base de connaissances sont ajoutées à l'invite système pour le LLM.
À ce stade, la base de connaissances contient des informations sur la répartition des tâches entre les services des Affaires Générales et des Affaires Administratives de cette entreprise, de sorte que la probabilité d'obtenir des réponses correctes devrait être plus élevée qu'avec la première moitié des données.
De cette manière, un système combinant le LLM et la base de connaissances peut apprendre la répartition des tâches entre les services des Affaires Générales et des Affaires Administratives de cette entreprise.
Le mécanisme d'apprentissage lui-même est similaire à l'apprentissage automatique numérique traditionnel. La différence est que les résultats de l'apprentissage sont reflétés dans la base de connaissances, et non dans les paramètres du réseau neuronal au sein du LLM. Et, c'est le langage naturel, et non des nombres, qui est enregistré dans la base de connaissances.
Ceci est le modèle de base de l'apprentissage automatique basé sur le langage naturel.
Réalité du modèle de base
Comme toute personne exploitant les LLM le réalisera rapidement, ce modèle de base manque de réalisme.
En effet, au lieu de se donner la peine d'avoir un système enseignant pour déterminer les réponses correctes et incorrectes, on pourrait simplement saisir les données d'entraînement elles-mêmes dans l'invite système dès le début.
Cependant, en appliquant le modèle de base et en modifiant légèrement le scénario, il gagne en réalisme.
Par exemple, supposons que les services des Affaires Générales et des Affaires Administratives établissent conjointement un guichet de renseignement, et que des humains trient individuellement les demandes entrantes vers le service approprié.
Un système simple peut être créé pour ajouter ces demandes et leurs résultats de routage à une base de connaissances.
Ensuite, en utilisant cette base de connaissances, le LLM peut prendre le relais des humains pour acheminer les nouvelles demandes vers les services.
Dans ce cas, si le LLM achemine incorrectement une demande destinée aux Affaires Administratives vers les Affaires Générales, la personne en charge des Affaires Générales réacheminera la demande vers les Affaires Administratives. Cette information de réacheminement est également enregistrée dans la base de connaissances.
Ce mécanisme simple d'enregistrement des journaux de routage, combiné au système LLM et base de connaissances, deviendrait un modèle supervisé réaliste pour l'apprentissage automatique basé sur le langage naturel.
Le point clé ici, encore une fois, est que les paramètres du réseau neuronal au sein du LLM ne changent absolument pas. Et les résultats de l'apprentissage par rétroaction ne sont pas des valeurs numériques, mais plutôt des collections de phrases en langage naturel.
De plus, ce système est sans équivoque un système d'apprentissage automatique, et non un système d'apprentissage humain.
Par conséquent, il s'agit d'une nouvelle forme d'apprentissage automatique : l'apprentissage automatique par le langage naturel.
Forces de l'apprentissage automatique en langage naturel
Contrairement à l'apprentissage automatique numérique, l'apprentissage en langage naturel offre de nombreux avantages.
En un mot, sa caractéristique distinctive est son efficacité d'apprentissage écrasante.
L'apprentissage automatique numérique nécessite généralement une grande quantité de données d'entraînement et un apprentissage itératif. Un pré-traitement des données d'entraînement est également nécessaire.
Une grande quantité de données d'entraînement est nécessaire car les caractéristiques que l'on souhaite apprendre ne sont pas contenues dans une seule donnée, mais sont distribuées sur un grand volume de données.
Pour cette raison, des données d'entraînement de l'ordre du carré de la dimension des caractéristiques réellement désirées sont requises.
L'apprentissage itératif est nécessaire car le changement de paramètres au cours d'une seule boucle de rétroaction doit être faible pour garantir que les paramètres du réseau neuronal sont appris de manière appropriée sans tomber dans des optima locaux.
Le pré-traitement des données d'entraînement, tel que la normalisation et l'extraction de contours, est nécessaire pour mettre en évidence les caractéristiques réellement désirées. Ce pré-traitement demande également un effort considérable.
Par exemple, si la répartition des tâches entre les services administratifs et généraux devait être apprise à l'aide d'un réseau neuronal traditionnel, et si ses caractéristiques étaient de 50 dimensions, au moins 1000 points de données d'entraînement ou plus seraient nécessaires. De plus, ces plus de 1000 points de données pourraient devoir être itérés environ 100 fois pour atteindre une précision d'apprentissage adéquate.
En outre, si ces 1000 points de données contiennent des mots superflus, des variations dans l'orthographe des mots, ou une variété d'ordres de mots et de syntaxes, l'efficacité de l'apprentissage diminuera, ou des caractéristiques non pertinentes seront apprises.
Par conséquent, un pré-traitement visant à supprimer les mots superflus, à normaliser le vocabulaire pour éliminer les variations et à unifier l'ordre des mots et la syntaxe est indispensable.
D'autre part, l'apprentissage automatique en langage naturel nécessite moins de données d'entraînement, n'exige pas d'itération avec les mêmes données d'entraînement, et, dans de nombreux cas, ne nécessite pas de pré-traitement.
Si les caractéristiques de la répartition des tâches entre les services administratifs et généraux sont de 50 dimensions, 50 informations correspondant à chaque dimension sont souvent suffisantes.
De plus, cela ne signifie pas que 50 phrases distinctes sont requises.
Une seule phrase comme "Les tâches liées à A, B, C et D sont gérées par le service administratif" peut inclure des informations pour quatre dimensions.
En outre, en abstrayant le langage, des informations provenant de plusieurs dimensions peuvent être agrégées. Une seule phrase comme "Le service administratif est responsable des consommables du bâtiment et de l'entretien des équipements" agrège des informations provenant d'un large éventail de dimensions, y compris le remplacement d'ampoules et les dysfonctionnements de portes automatiques.
Cette abstraction tire parti des connaissances pré-entraînées et des capacités de raisonnement du LLM, réduisant ainsi la quantité de données d'entraînement nécessaires.
Et, fondamentalement, l'apprentissage en langage naturel ne nécessite pas d'apprentissage itératif. Une fois la phrase susmentionnée ajoutée à la base de connaissances, l'apprentissage est terminé.
De plus, le pré-traitement des connaissances n'est pas nécessaire. Même si des descriptions des services administratifs ou généraux sont mélangées à diverses autres phrases, elles peuvent toujours être utilisées comme connaissances.
Alternativement, des données brutes, telles que des journaux de demandes et d'affectations comme dans l'exemple précédent, peuvent être immédiatement utilisées comme données d'entraînement sans pré-traitement.
De cette manière, l'apprentissage automatique en langage naturel peut apprendre bien plus efficacement que l'apprentissage automatique numérique.
Conclusion
Comparées aux capacités de calcul numérique à haute vitesse des ordinateurs, les capacités de traitement du langage naturel des grands modèles linguistiques sont plutôt lentes.
Cependant, l'apprentissage automatique en langage naturel permet un apprentissage plus efficace par rapport à l'apprentissage automatique numérique.
Cette efficacité l'emporte de loin sur l'écart entre les capacités de calcul numérique à haute vitesse et les capacités lentes de traitement du langage naturel.
De plus, les grands modèles linguistiques, qui ont connu une évolution étonnante grâce à l'apprentissage numérique, semblent approcher d'une limite en matière d'amélioration des capacités par simple mise à l'échelle, selon les lois de mise à l'échelle.
Dans ce cas, il est fort concevable que l'accent se déplace vers l'amélioration des capacités grâce à l'apprentissage automatique en langage naturel.