跳到内容
本文已通过AI从日语翻译
阅读日语原文
本文属于公共领域(CC0)。请随意自由使用。 CC0 1.0 Universal

作为微型虚拟智能的注意力机制

当前的生成式人工智能是一项因 Transformer 的发明而蓬勃发展的 AI 技术,这是一项重大突破。

注意力机制是 Transformer 最显著的特点,一言以蔽之。这一点在发布 Transformer 的论文标题《Attention Is All You Need》中得到了简洁的表达。

这源于当时的 AI 研究人员正在进行各种努力和尝试,以使 AI 能够像人类一样熟练地处理自然语言,他们为各种成功的方法命名并发表了论文。

许多研究人员认为,通过以多种多样的方式组合这些运行良好的机制,能够像人类一样处理自然语言的 AI 将逐渐出现。因此,他们致力于寻找可以与其他机制结合使用的新机制,并发现这些机制的最佳组合。

然而,Transformer 颠覆了这一传统观念。论文标题中表达的信息是,无需组合各种机制,所需要的一切都只是注意力机制。

当然,Transformer 本身也包含了各种机制,但毫无疑问,在这些机制中,注意力机制尤其具有开创性和独特性。

注意力机制概述

注意力机制是一种系统,在逐词处理自然语言的过程中,它能够学习在处理给定词时,应该“关注”句子中众多先行词中的哪一个。

这使得它能够准确理解“这个”、“那个”或“上述”(指代前一句中包含的词),或者“开篇句”、“列出的第二个例子”或“上一段”(指示文本中的位置)之类的短语所指代的对象。

此外,即使修饰语在句子中距离较远,它也能正确地解释单词;即使文本变得很长,它也能在不丢失当前词与其他句子之间上下文的情况下进行解释。

这就是“注意力”的效用。

反之,这也意味着在解释当前正在处理的词时,不必要的词会被遮蔽并从解释中移除。

通过仅保留给定词解释所需的词,并移除不相关的词,无论文本有多长,要解释的词集都将保持在少数,从而防止解释密度被稀释。

虚拟智能

现在,稍微改变一下话题,我一直在思考虚拟智能的概念。

当前,在将生成式 AI 用于商业时,如果将公司内部的所有信息整合起来,并将其作为知识提供给生成式 AI,那么庞大的知识量实际上会使 AI 难以适当地处理。

因此,更好的做法是按任务划分知识,为每个任务准备 AI 聊天或创建专门用于特定操作的 AI 工具。

这意味着对于复杂的任务,需要组合这些基于分段知识的 AI 聊天和工具。

这是当前使用生成式 AI 的一个局限,但即使是未来的生成式 AI,对于特定任务,只专注于该任务所需的知识也应该会产生更高的准确性。

相反,我相信未来的生成式 AI 将能够根据情况在内部切换必要的知识集,即使人类无需对知识进行分段。

这种能力就是虚拟智能。它就像一台可以在一台计算机上运行多个不同操作系统的虚拟机。这意味着在一个智能内部,可以运行多个具有不同专业性的虚拟智能。

即使是当前的生成式 AI,也已经能够模拟多人讨论或生成包含多个角色的故事。因此,虚拟智能并非一种特殊能力,而是当前生成式 AI 的延伸。

微型虚拟智能

根据任务缩小所需知识范围的虚拟智能机制,其执行方式与注意力机制相似。

也就是说,它与注意力机制相似之处在于,它根据当前正在处理的任务,只关注相关的知识。

反过来说,注意力机制可以说是一种实现类似虚拟智能的机制。然而,我所考虑的虚拟智能是一种从知识集合中选择相关知识的机制,而注意力机制则作用于词语集合。

因此,注意力机制可以被称为微型虚拟智能。

显式注意力机制

如果我们将注意力机制视为微型虚拟智能,那么反过来,我前面提到的虚拟智能可以通过构建一个宏观注意力机制来实现。

而且,这种宏观注意力机制无需添加到大型语言模型的内部结构中,也无需涉及神经网络训练。

它只需是一个用自然语言写成的显式句子,例如“执行任务 A 时,请参考知识 B 和知识 C。”

这明确了任务 A 所需的知识。这个句子本身就是一种知识。

这可以称之为显式注意力机制。这个句子可以被描述为注意力知识,它明确地指出了在执行任务 A 时应该关注的知识。

此外,这种注意力知识可以由生成式 AI 生成或更新。

如果一个任务因知识不足而失败,那么作为经验教训,可以更新注意力知识,以包含该任务应参考的额外知识。

结论

注意力机制极大地提升了生成式 AI 的能力。

它不仅仅是一个碰巧运作良好的机制;正如我们在此所见,在每种情况下动态地缩小参考信息范围的机制本身,似乎就是高级智能的本质。

而且,就像虚拟智能和显式注意力知识一样,注意力机制也是在各个层面递归地推进智能发展的关键。