Zum Inhalt springen
Dieser Artikel wurde mittels KI aus dem Japanischen übersetzt
Auf Japanisch lesen
Dieser Artikel ist gemeinfrei (CC0). Fühlen Sie sich frei, ihn uneingeschränkt zu nutzen. CC0 1.0 Universal

Aufmerksamkeitsmechanismus als Mikro-Virtuelle Intelligenz

Die aktuelle generative KI ist eine KI-Technologie, die mit der Erfindung des Transformers als großem Durchbruch aufblühte.

Der Aufmerksamkeitsmechanismus kann als das definierende Merkmal des Transformers beschrieben werden. Dies wird prägnant im Titel der Veröffentlichung des Transformers ausgedrückt: „Attention Is All You Need“.

Hintergrund war, dass KI-Forscher zu dieser Zeit vielfältige Anstrengungen unternahmen und sich im „Trial-and-Error“ übten, um KI in die Lage zu versetzen, natürliche Sprache so geschickt wie Menschen zu verarbeiten, erfolgreiche Methoden benannten und darüber publizierten.

Viele Forscher waren der Ansicht, dass sie durch die diverse Kombination dieser vielfältigen wirksamen Mechanismen schrittweise eine KI schaffen könnten, die natürliche Sprache wie Menschen verarbeitet. Sie konzentrierten sich darauf, neue Mechanismen zu entdecken, die in Kombination mit anderen funktionieren könnten, und die optimalen Kombinationen dieser Mechanismen zu finden.

Der Transformer jedoch stellte diese konventionelle Weisheit auf den Kopf. Die Botschaft, dass es nicht nötig sei, verschiedene Mechanismen zu kombinieren, und dass allein der Aufmerksamkeitsmechanismus ausreiche, war im Titel der Veröffentlichung offensichtlich.

Obwohl der Transformer selbst sicherlich verschiedene Mechanismen integriert, besteht kein Zweifel daran, dass der Aufmerksamkeitsmechanismus unter ihnen besonders wegweisend und charakteristisch war.

Überblick über den Aufmerksamkeitsmechanismus

Der Aufmerksamkeitsmechanismus ist ein System, das es der KI ermöglicht zu lernen, welchen Wörtern sie unter den vielen in den vorhergehenden Sätzen enthaltenen Wörtern besondere Aufmerksamkeit schenken sollte, wenn sie ein bestimmtes Wort in natürlicher Sprache verarbeitet.

Dies versetzt die KI in die Lage, die Referenz eines Wortes genau zu verstehen, beispielsweise bei Demonstrativpronomen wie „dieser“, „jener“ oder „der oben erwähnte“ (die auf ein Wort in einem vorherigen Satz verweisen), oder bei Positionsbezügen wie „der Einleitungssatz“, „das zweite aufgeführte Beispiel“ oder „der vorhergehende Absatz“.

Darüber hinaus kann er Modifikatoren korrekt interpretieren, selbst wenn sie weit voneinander entfernt in einem Satz stehen, und auch in langen Texten kann er Wörter interpretieren, ohne den Kontext, auf den sich das aktuelle Wort bezieht, zu verlieren, wodurch verhindert wird, dass er sich unter anderen Sätzen verirrt.

Das ist der Nutzen der „Aufmerksamkeit“.

Umgekehrt bedeutet dies, dass bei der Interpretation des gerade verarbeiteten Wortes unnötige Wörter maskiert und aus der Interpretation entfernt werden.

Indem nur die für die Interpretation eines gegebenen Wortes wesentlichen Wörter beibehalten und irrelevante entfernt werden, bleibt die Menge der zu interpretierenden Wörter auf wenige beschränkt, egal wie lang der Text ist, wodurch vermieden wird, dass die Interpretationsdichte verdünnt wird.

Virtuelle Intelligenz

Nun, um das Thema etwas zu wechseln, habe ich über das Konzept der virtuellen Intelligenz nachgedacht.

Gegenwärtig führt die geschäftliche Nutzung generativer KI dazu, dass, wenn alle Informationen eines Unternehmens als eine einzige Wissensbasis der KI bereitgestellt werden, das schiere Volumen des Wissens überwältigend werden kann. Dies führt dann zum Phänomen, dass die KI es nicht ordnungsgemäß verarbeiten kann.

Aus diesem Grund ist es effektiver, das Wissen nach Aufgaben zu trennen, KI-Chats für jede Aufgabe vorzubereiten oder spezialisierte KI-Tools für bestimmte Operationen zu erstellen.

Folglich wird es bei der Ausführung komplexer Aufgaben notwendig, diese KI-Chats oder KI-Tools, die jeweils ihr getrenntes Wissen besitzen, zu kombinieren.

Dies stellt zwar eine aktuelle Einschränkung generativer KI dar, aber grundsätzlich sollte auch bei zukünftiger generativer KI die Konzentration auf das für eine spezifische Aufgabe erforderliche Wissen zu höherer Genauigkeit führen.

Stattdessen glaube ich, dass zukünftige generative KI in der Lage sein wird, das notwendige Wissen intern situationsgerecht zu differenzieren und zu nutzen, auch ohne dass Menschen dieses Wissen segmentieren müssen.

Diese Fähigkeit ist virtuelle Intelligenz. Es ist wie eine virtuelle Maschine, die mehrere verschiedene Betriebssysteme auf einem einzigen Computer ausführen kann. Es bedeutet, dass innerhalb einer einzigen Intelligenz mehrere virtuelle Intelligenzen mit unterschiedlichen Spezialisierungen funktionieren können.

Bereits die aktuelle generative KI kann Diskussionen zwischen mehreren Personen simulieren oder Geschichten mit mehreren Charakteren generieren. Daher ist virtuelle Intelligenz keine besondere Fähigkeit, sondern vielmehr eine Erweiterung der aktuellen generativen KI.

Mikro-Virtuelle Intelligenz

Der Mechanismus der virtuellen Intelligenz, der das notwendige Wissen je nach Aufgabe eingrenzt, ähnelt in seiner Funktionsweise dem Aufmerksamkeitsmechanismus.

Mit anderen Worten, er ist dem Aufmerksamkeitsmechanismus insofern ähnlich, als er sich auf das für die aktuell ausgeführte Aufgabe relevante Wissen konzentriert und dieses verarbeitet.

Umgekehrt lässt sich sagen, dass der Aufmerksamkeitsmechanismus ein Mechanismus ist, der etwas Virtueller Intelligenz Ähnliches realisiert. Während die von mir angedachte virtuelle Intelligenz jedoch relevantes Wissen aus einer Wissenssammlung auswählt, operiert der Aufmerksamkeitsmechanismus auf der Ebene einer Wörtersammlung.

Aus diesem Grund kann der Aufmerksamkeitsmechanismus als Mikro-Virtuelle Intelligenz bezeichnet werden.

Expliziter Aufmerksamkeitsmechanismus

Betrachtet man den Aufmerksamkeitsmechanismus als mikro-virtuelle Intelligenz, dann kann umgekehrt die zuvor von mir erwähnte virtuelle Intelligenz durch den Aufbau eines makro-Aufmerksamkeitsmechanismus erreicht werden.

Dieser makro-Aufmerksamkeitsmechanismus muss nicht der internen Struktur großer Sprachmodelle hinzugefügt werden oder neuronales Netzwerklernen beinhalten.

Es kann einfach eine explizite Aussage in natürlicher Sprache sein, wie zum Beispiel: „Bei der Ausführung von Aufgabe A verweise auf Wissen B und Wissen C.“

Dies klärt das für Aufgabe A benötigte Wissen. Diese Aussage selbst ist eine Art von Wissen.

Dies könnte als Expliziter Aufmerksamkeitsmechanismus bezeichnet werden. Diese Aussage kann als Aufmerksamkeitswissen betrachtet werden, das explizit das Wissen artikuliert, auf das bei der Ausführung von Aufgabe A fokussiert werden sollte.

Darüber hinaus kann dieses Aufmerksamkeitswissen von generativer KI erzeugt oder aktualisiert werden.

Scheitert eine Aufgabe aufgrund mangelnden Wissens, kann das Aufmerksamkeitswissen als Reflexion dahingehend aktualisiert werden, dass zusätzliches Wissen als Referenz für diese Aufgabe hinzugefügt wird.

Fazit

Der Aufmerksamkeitsmechanismus hat die Fähigkeiten generativer KI dramatisch vorangetrieben.

Er war nicht bloß ein Mechanismus, der zufällig gut funktionierte; vielmehr scheint, wie wir hier gesehen haben, der Mechanismus selbst, Informationen für jede Situation dynamisch einzugrenzen, das Wesen fortgeschrittener Intelligenz zu sein.

Und wie die virtuelle Intelligenz und das explizite Aufmerksamkeitswissen ist der Aufmerksamkeitsmechanismus auch der Schlüssel zur rekursiven Verbesserung der Intelligenz über verschiedene Schichten hinweg.