現在の生成AIは、トランスフォーマーが発明されたことが大きなブレークスルーとなって開花したAI技術です。
トランスフォーマーの特徴を一言で表すのが、アテンションメカニズムです。これはトランスフォーマーが発表された際の論文のタイトル“Attention is All You Need” にも端的に表れています。
これは、当時のAIの研究者たちが、AIが自然言語を人間のように上手く扱えるように様々な工夫や試行錯誤をして、様々な上手くいった方法に名前を付けて論文を発表していたという背景があります。
そして、多くの研究者たちは、それらの複数の上手く機能する仕組みを、多種多様に組み合わせていくことで、徐々に人間のように自然言語を扱えるAIができると考えており、他の仕組みと組み合わせて機能する新しい仕組みを見つけたり、それらの仕組みの最適な組み合わせを見つけることに取り組んでいたのです。
しかし、このトランスフォーマーは、その常識を覆しました。様々な仕組みを組み合わせる必要はない、必要なのはアテンションメカニズムだけだ、というメッセージが、論文のタイトルに表れています。
もちろんトランスフォーマー自体には様々なメカニズムが組み込まれていますが、その中でもアテンションメカニズムが特に画期的で、特徴的だったことは間違いないでしょう。
アテンションメカニズムの概要
アテンションメカニズムは、自然言語を単語単位で処理する過程で、ある単語を処理している際に、それまでの文に含まれる多数の単語のうち、どの単語に注意を向けるべきか、ということを学習できる仕組みです。
これにより、例えば「この」「その」「さっきの」のように以前の文の中に含まれている単語を指し示す言葉や、「冒頭の文」「2番目に挙げた例」「一つ前の段落」のように文章の位置を示すような言葉を含む場合に、それが何を指しているかを高い精度で理解することができます。
また、文中で修飾語が離れていても適切に解釈したり、文章が長文になっても、他の文に紛れて今の単語が触れている文脈を見失うことなく解釈できます。
これが「注意(アテンション)」の効用です。
これは、逆に言えば、今処理している単語を解釈する際に、不要な単語をマスクして解釈から除去している、とも言えます。
その単語の解釈に必要な単語だけを残して、無関係な単語を解釈から除去することで、どんなに長文になっても、解釈する単語の集合が少数に限定され、解釈の密度が薄くなることを避けることができます。
仮想知能
さて、話は少し変わりますが、私は仮想知能という概念について考えています。
現在、生成AIを業務利用する際に、企業内のあらゆる情報を一つまとめにして生成AIのナレッジとして与えてしまうと、ナレッジの量が多すぎて、却って適切にナレッジが扱えないという現象が起こります。
このため、業務によってナレッジを分けて、業務毎にAIチャットを用意したり、特定の作業に特化したAIツールを作る方がうまくいきます。
そうなると複合的な作業を行う場合、こうした分割されたナレッジを持つAIチャットやAIツールを組み合わせる必要があるということになります。
これは現在の生成AIを使用する場合の限界ですが、基本的には将来の生成AIであっても、特定の作業の際には、その作業に必要なナレッジだけに集中する方が精度が高くなるはずです。
その代わり、将来の生成AIは、人間がナレッジを分割しなくても、生成AIが状況に応じて必要なナレッジを内部で使い分けることができるようになるだろうと考えています。
この能力が仮想知能です。それは、仮想マシンが1つのコンピュータ上で複数の異なるOSを動作させることができる仮想マシンのようなものです。1つの知能の中で、異なる専門性を持つ仮想的な複数の知能を機能させることができるということです。
既に現在の生成AIであっても、複数の人による議論をシミュレートできていたり、複数の人物が登場する物語を生成できます。このため、仮想知能は特別な能力ではなく、現在の生成AIの延長線上にあります。
マイクロ仮想知能
作業に応じて必要なナレッジを絞る仮想知能の仕組みは、アテンションメカニズムに似たことをしています。
つまり、今、処理をしようとしている作業に応じて、関連するナレッジだけに絞って扱う、という点で、アテンションメカニズムに類似しています。
逆に言えば、アテンションメカニズムは、仮想知能のようなことを実現するメカニズムと言えます。ただし、私が考えている仮想知能は、ナレッジの集合の中から関連するナレッジを選び出す仕組みですが、アテンションメカニズムは単語の集合を単位としています。
このため、アテンションメカニズムは、マイクロ仮想知能と呼ぶことができます。
明示的アテンションメカニズム
アテンションメカニズムをマイクロ仮想知能として捉えると、反対に先ほど私が考えていると言った仮想知能は、マクロなアテンションメカニズムを構築することで実現できることが分かります。
そして、そのマクロなアテンションメカニズムは、大規模言語モデルの内部構造に付け加えたり、ニューラルネットワークによる学習を伴う必要はありません。
それは「作業Aを実行する際には、ナレッジBとナレッジCを参照すること」という自然言語で書かれた明示的な文で良いのです。
これにより作業Aに必要なナレッジが明確化されます。この文自体も、一種のナレッジです。
これは明示的アテンションメカニズムと呼ぶことができるでしょう。この文は、作業Aを実施する際に注意を向けるべきナレッジを明文化したアテンションナレッジと言えます。
そして、このアテンションナレッジは、生成AIに生成されたり更新させたりすることができます。
ある作業でナレッジ不足で失敗した場合、その反省としてその作業で参照すべきナレッジとして別のナレッジを追加するようにアテンションナレッジを更新させれば良いでしょう。
さいごに
アテンションメカニズムは、生成AIの能力を飛躍的に向上させました。
それは、たまたま上手く機能する機構だったわけではなく、ここで見てきたように、場面毎に参照する情報を動的に絞るというメカニズムそのものが、高度な知性の本質なのではないかと思えます。
そして、仮想知能や明示的なアテンションナレッジのように、アテンションメカニズムは再帰的に様々なレイヤで知能を高度化させるカギでもあります。