Herkömmliches maschinelles Lernen arbeitet in einem Paradigma, in dem Computer, die geschickt in numerischen Berechnungen sind, aus numerischen Daten lernen und numerische Parameter erwerben.
Andererseits sind wir in der Lage, nicht nur durch numerische Mechanismen, sondern auch durch Sprache zu lernen. Wir organisieren und speichern Erfahrungen als Wörter und rufen diese Wörter dann ab oder lesen sie, um sie zu nutzen.
Große Sprachmodelle können ähnlich Wissen mithilfe von Wörtern beschreiben und Wörter durch Lesen nutzen.
Durch die Nutzung großer Sprachmodelle, die natürliche Sprachprozessoren sind, wird maschinelles Lernen auf Basis natürlicher Sprache möglich, anstatt nur auf numerischer Basis.
Folglich hat das Aufkommen großer Sprachmodelle ein neues Feld eröffnet: maschinelles Lernen mit natürlicher Sprache.
Das Vortraining großer Sprachmodelle ist traditionelles numerisches maschinelles Lernen. Das hier beschriebene maschinelle Lernen mit natürlicher Sprache bezieht sich auf eine neue Form des maschinellen Lernens, die vortrainierte große Sprachmodelle nutzt.
Grundmodell des maschinellen Lernens mit natürlicher Sprache
Das maschinelle Lernen mit natürlicher Sprache weist Aspekte auf, die dem traditionellen numerischen maschinellen Lernen ähneln und sich gleichzeitig gänzlich davon unterscheiden.
Zunächst werden wir, um ein Bild des maschinellen Lernens mit natürlicher Sprache zu vermitteln, die dem traditionellen numerischen maschinellen Lernen ähnelnden Teile als Grundmodell erläutern.
Von nun an bezeichnen wir ein vortrainiertes großes Sprachmodell als LLM. Bitte beachten Sie, dass sich die Parameter des LLM während dieses Lernprozesses überhaupt nicht ändern.
Das Grundmodell ist überwachtes Lernen und zielt auf ein Klassifizierungsproblem ab.
Für die Trainingsdaten werden mehrere Paare aus Eingabesätzen und deren Klassifikationen als richtige Antworten vorbereitet.
Nehmen wir zum Beispiel an, ein Unternehmen hat eine Abteilung für Allgemeine Angelegenheiten (General Affairs Department) und eine Verwaltungsabteilung (Administrative Affairs Department).
Diese beiden Abteilungen haben eine Aufgabenverteilung. Für Eingabesätze wie „Die Glühbirne im Büro ist kaputt“, „Ich habe meine Zugangskarte vergessen“ oder „Ich möchte den großen Saal in der Zentrale reservieren“ gibt die Klassifizierung an, ob die Abteilung für Allgemeine Angelegenheiten oder die Verwaltungsabteilung zuständig ist.
Aus diesen Trainingsdaten werden nur die Eingabesätze extrahiert und in das LLM eingespeist.
Hier schränken wir die Antwort als System-Prompt bewusst ein, indem wir formulieren: „Bitte antworten Sie, welche Abteilung, Allgemeine Angelegenheiten oder Verwaltungsabteilung, für diese Anfrage zuständig ist. Fügen Sie keine anderen Zeichen als ‚Allgemeine Angelegenheiten‘ oder ‚Verwaltungsabteilung‘ in Ihre Antwort ein.“
Anfangs wird das LLM Antworten generieren, ohne jegliches Wissen über dieses Unternehmen. Natürlich werden einige Antworten falsch sein, während andere zufällig richtig sein könnten.
Für jede Antwort bestimmt das Lehrsystem, ob sie richtig oder falsch ist. Anschließend wird die Kombination aus Eingabesatz, der Antwort des LLM und dem Bewertungsergebnis in einer Wissensbasis gespeichert.
Dieser Vorgang wird für etwa die Hälfte der Trainingsdaten wiederholt.
Für die verbleibende Hälfte der Trainingsdaten wird derselbe Prozess durchgeführt, aber diesmal werden alle in der Wissensbasis aufgezeichneten Informationen dem System-Prompt für das LLM hinzugefügt.
Zu diesem Zeitpunkt enthält die Wissensbasis Informationen über die Aufgabenverteilung zwischen der Abteilung für Allgemeine Angelegenheiten und der Verwaltungsabteilung dieses Unternehmens, sodass die Wahrscheinlichkeit, richtige Antworten zu erhalten, höher sein sollte als bei der ersten Datenhälfte.
Auf diese Weise kann ein System, das das LLM und die Wissensbasis kombiniert, die Aufgabenverteilung zwischen der Abteilung für Allgemeine Angelegenheiten und der Verwaltungsabteilung dieses Unternehmens lernen.
Der Lernmechanismus selbst ähnelt dem traditionellen numerischen maschinellen Lernen. Der Unterschied besteht darin, dass die Lernergebnisse in der Wissensbasis und nicht in den Parametern des neuronalen Netzwerks innerhalb des LLM reflektiert werden. Und in der Wissensbasis wird natürliche Sprache, nicht Zahlen, aufgezeichnet.
Dies ist das Grundmodell des maschinellen Lernens mit natürlicher Sprache.
Realität des Basismodells
Wie jeder, der LLMs nutzt, schnell feststellen wird, mangelt es diesem Basismodell an Realismus.
Dies liegt daran, dass man, anstatt sich die Mühe zu machen, ein Lehrsystem über richtige und falsche Antworten entscheiden zu lassen, die Trainingsdaten von Anfang an einfach direkt in den System-Prompt eingeben könnte.
Wendet man das Basismodell jedoch an und ändert das Szenario geringfügig, gewinnt es an Realismus.
Angenommen, die Abteilungen für allgemeine Angelegenheiten und Verwaltung richten gemeinsam eine Anfragenstelle ein, und Menschen leiten eingehende Anfragen einzeln an die entsprechende Abteilung weiter.
Es kann ein einfaches System erstellt werden, um diese Anfragen und ihre Weiterleitungsergebnisse einer Wissensbasis hinzuzufügen.
Anschließend kann das LLM mithilfe dieser Wissensbasis die Weiterleitung neuer Anfragen an die Abteilungen von den Menschen übernehmen.
In diesem Fall, wenn das LLM eine für die Verwaltung bestimmte Anfrage fälschlicherweise an die allgemeinen Angelegenheiten weiterleitet, leitet die zuständige Person in den allgemeinen Angelegenheiten die Anfrage an die Verwaltung zurück. Diese Umleitungsinformation wird ebenfalls in der Wissensbasis aufgezeichnet.
Dieser einfache Mechanismus zur Aufzeichnung von Weiterleitungsprotokollen, kombiniert mit dem LLM- und Wissensbasis-System, würde zu einem realistischen überwachten Modell für maschinelles Lernen mit natürlicher Sprache werden.
Der entscheidende Punkt hierbei ist, nochmals, dass sich die Parameter des neuronalen Netzwerks innerhalb des LLM überhaupt nicht ändern. Und die Ergebnisse des Feedback-Lernens sind keine numerischen Werte, sondern Sammlungen von Sätzen in natürlicher Sprache.
Darüber hinaus ist dieses System eindeutig ein maschinelles Lernsystem und kein menschliches Lernsystem.
Daher handelt es sich hierbei um eine neue Form des maschinellen Lernens: maschinelles Lernen durch natürliche Sprache.
Stärken des maschinellen Lernens mit natürlicher Sprache
Im Gegensatz zum numerischen maschinellen Lernen bietet das Lernen mit natürlicher Sprache viele Vorteile.
Kurz gesagt, sein entscheidendes Merkmal ist seine überwältigende Lerneffizienz.
Numerisches maschinelles Lernen erfordert im Allgemeinen eine große Menge an Trainingsdaten und iteratives Lernen. Eine Vorverarbeitung der Trainingsdaten ist ebenfalls notwendig.
Eine große Menge an Trainingsdaten wird benötigt, da die gewünschten Merkmale nicht in einem einzelnen Datensatz enthalten sind, sondern über ein großes Datenvolumen verteilt sind.
Aus diesem Grund sind Trainingsdaten in der Größenordnung des Quadrats der Dimension der tatsächlich gewünschten Merkmale erforderlich.
Iteratives Lernen ist notwendig, weil die Änderung der Parameter während eines einzigen Feedback-Loops gering sein muss, um sicherzustellen, dass die Parameter des neuronalen Netzwerks angemessen gelernt werden, ohne in lokale Optima zu geraten.
Die Vorverarbeitung von Trainingsdaten, wie Normalisierung und Kantenerkennung, ist notwendig, um die tatsächlich gewünschten Merkmale hervorzuheben. Diese Vorverarbeitung erfordert ebenfalls erheblichen Aufwand.
Wenn beispielsweise die Aufgabenverteilung zwischen der Verwaltungs- und der Abteilung für allgemeine Angelegenheiten mithilfe eines herkömmlichen neuronalen Netzwerks gelernt werden sollte und die Merkmale 50-dimensional wären, wären mindestens 1000 oder mehr Trainingsdatenpunkte erforderlich. Darüber hinaus müssten diese über 1000 Datenpunkte möglicherweise etwa 100 Mal durchlaufen werden, um eine angemessene Lerngenauigkeit zu erreichen.
Wenn diese über 1000 Datenpunkte außerdem überflüssige Wörter, Variationen in der Schreibweise von Wörtern oder eine Vielzahl von Wortstellungen und Syntaxen enthalten, verringert sich die Lerneffizienz, oder es werden irrelevante Merkmale gelernt.
Daher ist eine Vorverarbeitung unerlässlich, um überflüssige Wörter zu entfernen, das Vokabular zu standardisieren, um Variationen zu eliminieren, und Wortstellung sowie Syntax zu vereinheitlichen.
Andererseits erfordert maschinelles Lernen mit natürlicher Sprache weniger Trainingsdaten, keine Iteration mit denselben Trainingsdaten und in vielen Fällen keine Vorverarbeitung.
Wenn die Merkmale der Aufgabenverteilung zwischen der Verwaltungs- und der Abteilung für allgemeine Angelegenheiten 50-dimensional sind, reichen oft 50 Informationen, die jeder Dimension entsprechen.
Dies bedeutet jedoch nicht, dass 50 separate Sätze erforderlich sind.
Ein einziger Satz wie „Aufgaben im Zusammenhang mit A, B, C und D werden von der Verwaltungsabteilung bearbeitet“ kann Informationen für vier Dimensionen enthalten.
Darüber hinaus können durch Abstraktion der Sprache Informationen aus mehreren Dimensionen zusammengefasst werden. Ein einziger Satz wie „Die Verwaltungsabteilung ist für Gebäudeverbrauchsgüter und Gerätewartung zuständig“ fasst Informationen aus einem breiten Spektrum von Dimensionen zusammen, einschließlich Glühbirnenwechsel und Störungen an automatischen Türen.
Diese Abstraktion nutzt das vortrainierte Wissen und die Denkfähigkeiten des LLM und reduziert dadurch die benötigte Menge an Trainingsdaten.
Grundsätzlich erfordert das Lernen mit natürlicher Sprache keine iterative Lernmethode. Sobald der oben genannte Satz zur Wissensbasis hinzugefügt wurde, ist das Lernen abgeschlossen.
Ferner ist eine Vorverarbeitung des Wissens nicht erforderlich. Selbst wenn Beschreibungen der Verwaltungs- oder der allgemeinen Angelegenheiten mit verschiedenen anderen Sätzen vermischt sind, können sie dennoch als Wissen genutzt werden.
Alternativ können Rohdaten, wie Protokolle von Anfragen und Zuweisungen wie im vorherigen Beispiel, sofort und ohne Vorverarbeitung als Trainingsdaten genutzt werden.
Auf diese Weise kann maschinelles Lernen mit natürlicher Sprache weitaus effizienter lernen als numerisches maschinelles Lernen.
Fazit
Verglichen mit den Hochgeschwindigkeits-Rechenfähigkeiten von Computern sind die Fähigkeiten zur Verarbeitung natürlicher Sprache großer Sprachmodelle ziemlich langsam.
Allerdings ermöglicht maschinelles Lernen mit natürlicher Sprache ein effizienteres Lernen im Vergleich zum numerischen maschinellen Lernen.
Diese Effizienz übertrifft bei Weitem die Kluft zwischen schnellen numerischen Rechenfähigkeiten und langsamen Fähigkeiten zur Verarbeitung natürlicher Sprache.
Darüber hinaus scheinen große Sprachmodelle, die durch numerisches Lernen eine erstaunliche Entwicklung durchgemacht haben, laut Skalierungsgesetzen an eine Grenze der Leistungsverbesserung durch einfaches Hochskalieren zu stoßen.
In diesem Fall ist es sehr denkbar, dass sich der Fokus auf die Verbesserung der Fähigkeiten durch maschinelles Lernen mit natürlicher Sprache verlagern wird.