Zum Inhalt springen
Dieser Artikel wurde mittels KI aus dem Japanischen übersetzt
Auf Japanisch lesen
Dieser Artikel ist gemeinfrei (CC0). Fühlen Sie sich frei, ihn uneingeschränkt zu nutzen. CC0 1.0 Universal

Maschinelles Lernen mit natürlicher Sprache

Herkömmliches maschinelles Lernen arbeitet innerhalb eines Paradigmas, in dem Computer, die numerische Berechnungen beherrschen, mit numerischen Daten lernen und quantifizierte Parameter erwerben.

Menschen sind jedoch in der Lage, nicht nur durch numerische Mechanismen, sondern auch durch Sprache zu lernen. Wir ordnen Erfahrungen in Worten und halten sie fest, um diese Worte dann abzurufen, zu lesen und zu nutzen.

Große Sprachmodelle (Large Language Models, LLMs) können Wissen ebenfalls in Worten beschreiben und durch das Lesen von Worten nutzen.

Durch den Einsatz von LLMs als natürliche Sprachprozessoren wird maschinelles Lernen auf Basis natürlicher Sprache möglich, anstatt nur numerisches maschinelles Lernen.

Aus diesem Grund hat das Aufkommen von LLMs ein neues Feld eröffnet: das maschinelle Lernen mit natürlicher Sprache.

Das Vortraining von LLMs ist eine Form des traditionellen numerischen maschinellen Lernens. Das hier besprochene maschinelle Lernen mit natürlicher Sprache bezieht sich auf eine neue Art des maschinellen Lernens, die vortrainierte LLMs nutzt.

Grundmodell des maschinellen Lernens mit natürlicher Sprache

Maschinelles Lernen mit natürlicher Sprache weist sowohl Aspekte auf, die dem konventionellen numerischen maschinellen Lernen ähneln, als auch solche, die sich gänzlich unterscheiden.

Um das Konzept des maschinellen Lernens mit natürlicher Sprache zunächst zu erfassen, beschreiben wir ein Grundmodell, das sich auf die Teile konzentriert, die dem traditionellen numerischen maschinellen Lernen ähneln.

Von nun an wird ein vortrainiertes Großes Sprachmodell als LLM bezeichnet. Beachten Sie, dass sich die Parameter des LLM während dieses Lernprozesses überhaupt nicht ändern.

Das Grundmodell ist ein überwachtes Lernmodell, das auf Klassifikationsprobleme abzielt.

Für die Lerndaten werden mehrere Paare von Eingabesätzen und deren Klassifikationen als richtige Antworten vorbereitet.

Stellen wir uns zum Beispiel vor, ein Unternehmen hat eine Hauptverwaltung und eine Verwaltungsabteilung.

Diese beiden Abteilungen haben unterschiedliche Aufgaben. Für Eingabesätze wie „Die Glühbirne im Büro ist defekt“, „Ich habe meinen Ausweis vergessen“ oder „Ich möchte den Hauptsaal im Hauptquartier buchen“, gibt die Klassifikation an, welche Abteilung, Hauptverwaltung oder Verwaltungsabteilung, zuständig ist.

Aus diesen Trainingsdaten werden nur die Eingabesätze extrahiert und in das LLM eingespeist.

Hier schränken wir die Antwort absichtlich über einen System-Prompt ein, z.B. „Bitte geben Sie an, ob die zuständige Abteilung für diese Anfrage die Hauptverwaltung oder die Verwaltungsabteilung ist. Fügen Sie keine anderen Zeichen als ‚Hauptverwaltung‘ oder ‚Verwaltungsabteilung‘ in Ihre Antwort ein.“

Anfänglich generiert das LLM eine Antwort ohne Kenntnis des Unternehmens. Natürlich kann sie falsch sein oder gelegentlich zufällig richtig.

Für jede Antwort bestimmt ein Leitsystem, ob sie richtig oder falsch ist. Dann wird die Kombination aus Eingabesatz, der Antwort des LLM und dem Bewertungsergebnis in einer Wissensdatenbank gespeichert.

Dieser Vorgang wird für etwa die Hälfte der Trainingsdaten wiederholt.

Für die verbleibende Hälfte der Trainingsdaten werden alle in der Wissensdatenbank gespeicherten Informationen zum System-Prompt für das LLM hinzugefügt, und der gleiche Prozess wird durchgeführt.

Zu diesem Zeitpunkt enthält die Wissensdatenbank Informationen über die Aufgabenverteilung zwischen der Hauptverwaltung und der Verwaltungsabteilung des Unternehmens, sodass die Wahrscheinlichkeit einer korrekten Antwort höher sein sollte als bei der ersten Datenhälfte.

Auf diese Weise kann ein System, das ein LLM und eine Wissensdatenbank kombiniert, die Aufgabenverteilung für die Hauptverwaltung und die Verwaltungsabteilung eines Unternehmens lernen.

Der Lernmechanismus selbst ähnelt dem traditionellen numerischen maschinellen Lernen. Der Unterschied besteht darin, dass die Lernergebnisse in der Wissensdatenbank und nicht in den Parametern des neuronalen Netzes innerhalb des LLM reflektiert werden. Darüber hinaus speichert die Wissensdatenbank natürliche Sprache, keine numerischen Werte.

Dies ist das Grundmodell des maschinellen Lernens mit natürlicher Sprache.

Realität des Grundmodells

Wie diejenigen, die LLMs nutzen, schnell erkennen werden, mangelt es diesem Grundmodell an Realismus.

Der Grund dafür ist, dass man sich nicht die Mühe machen muss, ein Lehrsystem über richtige/falsche Bewertungen entscheiden zu lassen; man könnte die Trainingsdaten von Anfang an einfach selbst in den System-Prompt eingeben.

Wendet man das Grundmodell jedoch an und ändert das Szenario leicht ab, gewinnt es an Realismus.

Stellen Sie sich zum Beispiel vor, die Hauptverwaltung und die Verwaltungsabteilung richten gemeinsam einen Anfrageschalter ein, und ein Mensch weist jede eingehende Anfrage manuell der entsprechenden Abteilung zu.

Ein einfaches System wird aufgebaut, um diese Anfragen und deren Zuweisungsergebnisse einer Wissensdatenbank hinzuzufügen.

Anschließend kann das LLM mithilfe dieser Wissensdatenbank die Aufgabe des Menschen übernehmen und neue Anfragen den Abteilungen zuweisen.

In diesem Fall, falls das LLM eine Anfrage, die für die Verwaltungsabteilung bestimmt war, fälschlicherweise der Hauptverwaltung zuweist, wird das Personal der Hauptverwaltung die Anfrage erneut der Verwaltungsabteilung zuweisen. Diese Information über die erneute Zuweisung wird ebenfalls in der Wissensdatenbank erfasst.

Dieser einfache Mechanismus zur Aufzeichnung von Zuweisungsprotokollen, kombiniert mit einem LLM und einer Wissensdatenbank, würde ein realistisches überwachtes Modell für maschinelles Lernen mit natürlicher Sprache darstellen.

Der entscheidende Punkt ist hier, um es noch einmal zu betonen, dass sich die Parameter des neuronalen Netzes innerhalb des LLM überhaupt nicht ändern. Darüber hinaus ist das Ergebnis des Feedback-Lernens eine Sammlung von Sätzen in natürlicher Sprache, keine numerischen Werte.

Und zweifellos handelt es sich bei diesem System um maschinelles Lernen, nicht um menschliches Lernen.

Daher handelt es sich um eine neue Form des maschinellen Lernens: maschinelles Lernen mit natürlicher Sprache.

Stärken des maschinellen Lernens mit natürlicher Sprache

Im Gegensatz zum numerischen maschinellen Lernen bietet das Lernen mit natürlicher Sprache viele Vorteile.

Kurz gesagt, sein entscheidendes Merkmal ist eine überwältigend hohe Lerneffizienz.

Numerisches maschinelles Lernen erfordert im Allgemeinen eine große Menge an Trainingsdaten und iteratives Lernen. Darüber hinaus ist auch eine Vorverarbeitung der Trainingsdaten notwendig.

Eine große Menge an Trainingsdaten ist erforderlich, da die zu erlernenden Merkmale nicht in einem einzelnen Datensatz enthalten sind, sondern über eine riesige Datenmenge verteilt sind.

Aus diesem Grund sind Trainingsdaten in der Größenordnung des Quadrats der Dimensionalität der wirklich gewünschten Merkmale erforderlich.

Iteratives Lernen ist notwendig, um sicherzustellen, dass die Parameter des neuronalen Netzes angemessen gelernt werden, ohne in lokale Minima zu geraten. Dies erfordert, dass die Parameteränderung bei jedem Feedback gering gehalten wird.

Die Vorverarbeitung von Trainingsdaten, wie Normalisierung und Kantenerkennung, ist erforderlich, um die wirklich gewünschten Merkmale hervorzuheben. Diese Vorverarbeitung erfordert ebenfalls erheblichen Aufwand.

Würde man beispielsweise die Aufgabenverteilung zwischen der Verwaltungsabteilung und der Hauptverwaltung mithilfe eines traditionellen neuronalen Netzes erlernen, und die Merkmale wären 50-dimensional, so wären mindestens etwa 1.000 oder mehr Trainingsdatensätze erforderlich. Zusätzlich müssten diese über 1.000 Datensätze möglicherweise etwa 100 Mal iterativ gelernt werden, um eine angemessene Lernpräzision zu erreichen.

Wenn dieser Satz von 1.000 Trainingsdateninstanzen darüber hinaus überflüssige Wörter, Rechtschreibvarianten oder eine Vielzahl von Wortfolgen und Satzstrukturen enthält, nimmt die Lerneffizienz ab, und es können irrelevante Merkmale gelernt werden.

Daher ist eine Vorverarbeitung unerlässlich, um überflüssige Wörter zu entfernen, die Terminologie zu standardisieren, um Variationen zu eliminieren, und die Wortfolge und Syntax zu vereinheitlichen.

Im Gegensatz dazu erfordert maschinelles Lernen mit natürlicher Sprache weniger Trainingsdaten, keine Iteration mit denselben Trainingsdaten und oft keine Vorverarbeitung.

Sind die Merkmale der Aufgabenverteilung zwischen der Verwaltungs- und der Hauptverwaltung 50-dimensional, genügen 50 Informationen, die jeder Dimension entsprechen.

Darüber hinaus bedeutet dies nicht, dass 50 separate Sätze erforderlich sind.

Ein einziger Satz wie „Aufgaben im Zusammenhang mit A, B, C und D werden von der Verwaltungsabteilung bearbeitet“ kann vier Dimensionen von Informationen umfassen.

Darüber hinaus können durch Abstraktion von Sprache Informationen aus mehreren Dimensionen aggregiert werden. Ein Satz wie „Die Wartung von Gebäudeverbrauchsgütern und -anlagen obliegt der Verwaltungsabteilung“ aggregiert eine breite Palette dimensionaler Informationen, einschließlich Glühbirnenwechsel und Störungen an automatischen Türen.

Diese Abstraktion kann als Reduzierung der Trainingsdaten angesehen werden, indem die vortrainierten Kenntnisse und Schlussfolgerungsfähigkeiten des LLM genutzt werden.

Und grundsätzlich erfordert das Lernen mit natürlicher Sprache kein iteratives Lernen. Sobald der zuvor erwähnte Satz in die Wissensdatenbank aufgenommen wurde, ist der Lernvorgang abgeschlossen.

Zusätzlich ist keine Vorverarbeitung des Wissens erforderlich. Auch wenn Erklärungen der Verwaltungsabteilung oder der Hauptverwaltung in verschiedenen Texten gemischt sind, können sie dennoch als Wissen genutzt werden.

Oder, wie im vorherigen Beispiel, können Rohdaten wie Anfragen- und Zuweisungsaufzeichnungen sofort ohne Vorverarbeitung als Trainingsdaten verwendet werden.

Somit kann maschinelles Lernen mit natürlicher Sprache weitaus effizienter lernen als numerisches maschinelles Lernen.

Fazit

Verglichen mit den Hochgeschwindigkeits-Rechenfähigkeiten von Computern ist die Fähigkeit großer Sprachmodelle zur Verarbeitung natürlicher Sprache recht langsam.

Dennoch ermöglicht maschinelles Lernen mit natürlicher Sprache ein effizientes Lernen, das die Lücke zwischen schnellen numerischen Berechnungen und langsamer Verarbeitung natürlicher Sprache bei Weitem überbrückt.

Darüber hinaus scheinen große Sprachmodelle, die durch numerisches Lernen erstaunliche Fortschritte gemacht haben, gemäß Skalierungsgesetzen an die Grenzen der Leistungssteigerung durch einfaches Hochskalieren zu stoßen.

In einem solchen Szenario ist es höchst plausibel, dass sich der Fokus auf die Verbesserung der Fähigkeiten durch maschinelles Lernen mit natürlicher Sprache verlagern wird.