Die aktuelle generative KI ist eine KI-Technologie, die dank der Erfindung der Transformatoren, die einen großen Durchbruch darstellten, aufgeblüht ist.
Der Aufmerksamkeitsmechanismus ist das, was den Transformator in einem einzigen Satz charakterisiert. Dies kommt prägnant im Titel des Papers zum Ausdruck, das den Transformator ankündigte: „Attention is All You Need.“
Dies hat seine Wurzeln darin, dass KI-Forscher zu dieser Zeit verschiedene Anstrengungen und Versuche unternahmen, um die KI in die Lage zu versetzen, natürliche Sprache so geschickt wie Menschen zu verarbeiten, und dabei verschiedene erfolgreiche Methoden benannten und in Papers veröffentlichten.
Viele Forscher glaubten, dass durch die Kombination dieser mehreren gut funktionierenden Mechanismen auf vielfältige Weise allmählich eine KI entstehen würde, die natürliche Sprache wie Menschen verarbeiten kann. Sie arbeiteten daher daran, neue Mechanismen zu finden, die in Kombination mit anderen Mechanismen funktionieren könnten, und die optimalen Kombinationen dieser Mechanismen zu entdecken.
Der Transformator hat diese konventionelle Weisheit jedoch umgestoßen. Die Botschaft, dass es unnötig ist, verschiedene Mechanismen zu kombinieren, und dass alles, was benötigt wird, der Aufmerksamkeitsmechanismus ist, wird im Titel des Papers ausgedrückt.
Natürlich integriert der Transformator selbst verschiedene Mechanismen, aber es besteht kein Zweifel, dass der Aufmerksamkeitsmechanismus unter ihnen besonders bahnbrechend und charakteristisch war.
Überblick über den Aufmerksamkeitsmechanismus
Der Aufmerksamkeitsmechanismus ist ein System, das während der wortweisen Verarbeitung natürlicher Sprache lernen kann, welchen der vielen vorhergehenden Wörter in einem Satz es „Aufmerksamkeit schenken“ sollte, wenn ein bestimmtes Wort verarbeitet wird.
Dies ermöglicht es, genau zu verstehen, worauf sich Wörter wie „dieses“, „jenes“ oder „das Vorgenannte“ (die sich auf Wörter in vorhergehenden Sätzen beziehen) oder Phrasen wie „der Eröffnungssatz“, „das zweite aufgeführte Beispiel“ oder „der vorherige Absatz“ (die Textpositionen angeben) beziehen.
Darüber hinaus kann es Wörter auch dann korrekt interpretieren, wenn Modifikatoren innerhalb eines Satzes weit entfernt sind, und selbst wenn ein Text lang wird, kann es interpretieren, ohne den Kontext des aktuellen Wortes unter anderen Sätzen zu verlieren.
Dies ist der Nutzen von „Aufmerksamkeit“.
Umgekehrt bedeutet dies auch, dass bei der Interpretation des gerade verarbeiteten Wortes unnötige Wörter maskiert und von der Interpretation ausgeschlossen werden.
Indem nur die für die Interpretation eines gegebenen Wortes notwendigen Wörter beibehalten und irrelevante entfernt werden, bleibt die Menge der zu interpretierenden Wörter auf eine kleine Anzahl beschränkt, unabhängig von der Länge des Textes, wodurch verhindert wird, dass die Interpretationsdichte verwässert wird.
Virtuelle Intelligenz
Nun, um das Thema leicht zu wechseln, habe ich über das Konzept der virtuellen Intelligenz nachgedacht.
Gegenwärtig kann es bei der geschäftlichen Nutzung generativer KI schwierig sein, wenn alle Informationen eines Unternehmens konsolidiert und der generativen KI als Wissen zur Verfügung gestellt werden, da das schiere Volumen des Wissens die KI tatsächlich daran hindern kann, es angemessen zu verarbeiten.
Aus diesem Grund funktioniert es besser, Wissen nach Aufgaben zu unterteilen, indem für jede Aufgabe KI-Chats vorbereitet oder auf spezifische Operationen spezialisierte KI-Tools erstellt werden.
Dies impliziert, dass für komplexe Aufgaben die Kombination dieser segmentierten wissensbasierten KI-Chats und -Tools notwendig wird.
Dies ist eine aktuelle Einschränkung bei der Verwendung generativer KI, aber selbst bei zukünftiger generativer KI sollte sich bei spezifischen Aufgaben eine höhere Genauigkeit ergeben, wenn man sich nur auf das für diese Aufgabe erforderliche Wissen konzentriert.
Stattdessen glaube ich, dass zukünftige generative KI in der Lage sein wird, intern je nach Situation zwischen notwendigen Wissenssätzen zu wechseln, auch ohne dass Menschen das Wissen segmentieren müssen.
Diese Fähigkeit ist virtuelle Intelligenz. Es ist wie eine virtuelle Maschine, die mehrere verschiedene Betriebssysteme auf einem einzigen Computer ausführen kann. Das bedeutet, dass innerhalb einer Intelligenz mehrere virtuelle Intelligenzen mit unterschiedlichen Spezialisierungen funktionieren können.
Schon die aktuelle generative KI kann Diskussionen zwischen mehreren Personen simulieren oder Geschichten mit mehreren Charakteren generieren. Daher ist virtuelle Intelligenz keine besondere Fähigkeit, sondern eher eine Erweiterung der aktuellen generativen KI.
Mikro-Virtuelle Intelligenz
Der Mechanismus der virtuellen Intelligenz, der das notwendige Wissen entsprechend der Aufgabe eingrenzt, ähnelt dem Aufmerksamkeitsmechanismus.
Das heißt, er ähnelt dem Aufmerksamkeitsmechanismus, da er sich je nach der aktuell bearbeiteten Aufgabe nur auf relevantes Wissen konzentriert.
Umgekehrt kann der Aufmerksamkeitsmechanismus als ein Mechanismus bezeichnet werden, der so etwas wie virtuelle Intelligenz realisiert. Die von mir betrachtete virtuelle Intelligenz ist jedoch ein Mechanismus, der relevantes Wissen aus einer Wissensmenge auswählt, während der Aufmerksamkeitsmechanismus auf einer Menge von Wörtern arbeitet.
Aus diesem Grund kann der Aufmerksamkeitsmechanismus als mikro-virtuelle Intelligenz bezeichnet werden.
Expliziter Aufmerksamkeitsmechanismus
Betrachten wir den Aufmerksamkeitsmechanismus als mikro-virtuelle Intelligenz, so kann umgekehrt die zuvor erwähnte virtuelle Intelligenz durch den Aufbau eines makro-Aufmerksamkeitsmechanismus realisiert werden.
Und dieser makro-Aufmerksamkeitsmechanismus muss weder der internen Struktur großer Sprachmodelle hinzugefügt werden noch ein neuronales Netztraining beinhalten.
Es kann einfach ein expliziter Satz in natürlicher Sprache sein, wie zum Beispiel: „Bei der Durchführung von Aufgabe A beziehe dich auf Wissen B und Wissen C.“
Dies verdeutlicht das für Aufgabe A benötigte Wissen. Dieser Satz selbst ist eine Art von Wissen.
Dies könnte man als expliziten Aufmerksamkeitsmechanismus bezeichnen. Dieser Satz kann als Aufmerksamkeitswissen beschrieben werden, das explizit das Wissen angibt, auf das man sich bei der Durchführung von Aufgabe A konzentrieren sollte.
Darüber hinaus kann dieses Aufmerksamkeitswissen von generativer KI erzeugt oder aktualisiert werden.
Wenn eine Aufgabe aufgrund mangelnden Wissens fehlschlägt, kann das Aufmerksamkeitswissen als gelernte Lektion aktualisiert werden, um zusätzliches Wissen aufzunehmen, das für diese Aufgabe herangezogen werden sollte.
Fazit
Der Aufmerksamkeitsmechanismus hat die Fähigkeiten generativer KI dramatisch verbessert.
Er war nicht nur ein Mechanismus, der zufällig gut funktionierte; wie wir hier gesehen haben, scheint der Mechanismus des dynamischen Eingrenzens der zu referenzierenden Informationen in jeder Situation die Essenz fortgeschrittener Intelligenz zu sein.
Und wie die virtuelle Intelligenz und explizites Aufmerksamkeitswissen ist der Aufmerksamkeitsmechanismus auch der Schlüssel zur rekursiven Weiterentwicklung von Intelligenz auf verschiedenen Ebenen.