当前的生成式人工智能是一项因 Transformer 的发明而蓬勃发展的 AI 技术,这是一项重大突破。
注意力机制是 Transformer 最显著的特点,一言以蔽之。这一点在发布 Transformer 的论文标题《Attention Is All You Need》中得到了简洁的表达。
这源于当时的 AI 研究人员正在进行各种努力和尝试,以使 AI 能够像人类一样熟练地处理自然语言,他们为各种成功的方法命名并发表了论文。
许多研究人员认为,通过以多种多样的方式组合这些运行良好的机制,能够像人类一样处理自然语言的 AI 将逐渐出现。因此,他们致力于寻找可以与其他机制结合使用的新机制,并发现这些机制的最佳组合。
然而,Transformer 颠覆了这一传统观念。论文标题中表达的信息是,无需组合各种机制,所需要的一切都只是注意力机制。
当然,Transformer 本身也包含了各种机制,但毫无疑问,在这些机制中,注意力机制尤其具有开创性和独特性。
注意力机制概述
注意力机制是一种系统,在逐词处理自然语言的过程中,它能够学习在处理给定词时,应该“关注”句子中众多先行词中的哪一个。
这使得它能够准确理解“这个”、“那个”或“上述”(指代前一句中包含的词),或者“开篇句”、“列出的第二个例子”或“上一段”(指示文本中的位置)之类的短语所指代的对象。
此外,即使修饰语在句子中距离较远,它也能正确地解释单词;即使文本变得很长,它也能在不丢失当前词与其他句子之间上下文的情况下进行解释。
这就是“注意力”的效用。
反之,这也意味着在解释当前正在处理的词时,不必要的词会被遮蔽并从解释中移除。
通过仅保留给定词解释所需的词,并移除不相关的词,无论文本有多长,要解释的词集都将保持在少数,从而防止解释密度被稀释。
虚拟智能
现在,稍微改变一下话题,我一直在思考虚拟智能的概念。
当前,在将生成式 AI 用于商业时,如果将公司内部的所有信息整合起来,并将其作为知识提供给生成式 AI,那么庞大的知识量实际上会使 AI 难以适当地处理。
因此,更好的做法是按任务划分知识,为每个任务准备 AI 聊天或创建专门用于特定操作的 AI 工具。
这意味着对于复杂的任务,需要组合这些基于分段知识的 AI 聊天和工具。
这是当前使用生成式 AI 的一个局限,但即使是未来的生成式 AI,对于特定任务,只专注于该任务所需的知识也应该会产生更高的准确性。
相反,我相信未来的生成式 AI 将能够根据情况在内部切换必要的知识集,即使人类无需对知识进行分段。
这种能力就是虚拟智能。它就像一台可以在一台计算机上运行多个不同操作系统的虚拟机。这意味着在一个智能内部,可以运行多个具有不同专业性的虚拟智能。
即使是当前的生成式 AI,也已经能够模拟多人讨论或生成包含多个角色的故事。因此,虚拟智能并非一种特殊能力,而是当前生成式 AI 的延伸。
微型虚拟智能
根据任务缩小所需知识范围的虚拟智能机制,其执行方式与注意力机制相似。
也就是说,它与注意力机制相似之处在于,它根据当前正在处理的任务,只关注相关的知识。
反过来说,注意力机制可以说是一种实现类似虚拟智能的机制。然而,我所考虑的虚拟智能是一种从知识集合中选择相关知识的机制,而注意力机制则作用于词语集合。
因此,注意力机制可以被称为微型虚拟智能。
显式注意力机制
如果我们将注意力机制视为微型虚拟智能,那么反过来,我前面提到的虚拟智能可以通过构建一个宏观注意力机制来实现。
而且,这种宏观注意力机制无需添加到大型语言模型的内部结构中,也无需涉及神经网络训练。
它只需是一个用自然语言写成的显式句子,例如“执行任务 A 时,请参考知识 B 和知识 C。”
这明确了任务 A 所需的知识。这个句子本身就是一种知识。
这可以称之为显式注意力机制。这个句子可以被描述为注意力知识,它明确地指出了在执行任务 A 时应该关注的知识。
此外,这种注意力知识可以由生成式 AI 生成或更新。
如果一个任务因知识不足而失败,那么作为经验教训,可以更新注意力知识,以包含该任务应参考的额外知识。
结论
注意力机制极大地提升了生成式 AI 的能力。
它不仅仅是一个碰巧运作良好的机制;正如我们在此所见,在每种情况下动态地缩小参考信息范围的机制本身,似乎就是高级智能的本质。
而且,就像虚拟智能和显式注意力知识一样,注意力机制也是在各个层面递归地推进智能发展的关键。