跳到内容
本文已通过AI从日语翻译
阅读日语原文
本文属于公共领域(CC0)。请随意自由使用。 CC0 1.0 Universal

注意力机制作为微虚拟智能

当前的生成式AI是一种以Transformer的发明为重大突破而蓬勃发展的AI技术。

注意力机制可以被描述为Transformer的决定性特征。这一点在发布Transformer的论文标题“Attention Is All You Need”中得到了简洁的体现。

这背后的背景是,当时的AI研究人员正在进行各种努力和反复试验,以使AI能够像人类一样熟练处理自然语言,他们为成功的方法命名并发表论文。

许多研究人员认为,通过以多样化的方式组合这些多种有效的机制,他们可以逐渐创造出能够像人类一样处理自然语言的AI。他们致力于发现可以与其他机制结合使用的新机制,并找到这些机制的最佳组合。

然而,Transformer颠覆了这一传统观念。论文标题中明确传达的信息是:无需组合各种机制,只需要注意力机制。

当然,Transformer本身确实包含了各种机制,但毫无疑问,注意力机制在其中尤其具有开创性和独特性。

注意力机制概述

注意力机制是一种系统,它允许AI在处理自然语言中的某个特定词语时,从前文包含的众多词语中,学习应该关注哪些词语。

这使得AI能够准确理解词语所指代的对象。例如,当处理指示代词如“这个”、“那个”或“刚才提到的”(指向前文中的某个词语),或位置参照词如“开篇句”、“列出的第二个例子”或“前一段”时,AI能够高精度地理解它们指代的内容。

此外,即使修饰语在句子中相隔较远,它也能正确地进行解释;即使文章篇幅很长,它也能在不丢失当前词语所指上下文的情况下进行解释,避免在其他句子中迷失。

这就是“注意力”的效用。

反过来说,这意味着在解释当前正在处理的词语时,不必要的词语会被屏蔽并从解释中移除。

通过只保留解释给定词语所需的词语,并移除不相关的词语,无论文本多长,需要解释的词语集合都会被限制在少数几个,从而避免解释密度被稀释。

虚拟智能

现在,稍微转换一下话题,我一直在思考虚拟智能的概念。

目前,在商业应用生成式AI时,如果将公司内部所有信息整合为一个知识库提供给AI,庞大的知识量可能会让AI不堪重负,导致其无法正确处理知识。

因此,更有效的方法是根据任务划分知识,为每个任务准备AI聊天机器人,或创建专门用于特定操作的AI工具。

结果就是,在执行复杂任务时,需要将这些拥有分离知识的AI聊天机器人或AI工具组合起来使用。

虽然这代表了当前生成式AI的一个局限性,但从根本上讲,即使是未来的生成式AI,专注于特定任务所需的知识也应该会带来更高的准确性。

相反,我相信未来的生成式AI将能够根据情况在内部区分和利用必要的知识,而无需人类对其进行分割。

这种能力就是虚拟智能。它就像一台虚拟机,可以在一台计算机上运行多个不同的操作系统。这意味着在单一智能内部,多个具有不同专业领域的虚拟智能可以协同运作。

即使是当前的生成式AI也已经能够模拟多方讨论或生成包含多个角色的故事。因此,虚拟智能并非一项特殊能力,而是当前生成式AI的延伸。

微虚拟智能

虚拟智能根据任务缩小所需知识范围的机制,其运作方式与注意力机制相似。

换句话说,它类似于注意力机制,因为它根据当前正在执行的任务,专注于并处理相关知识。

反过来,注意力机制可以说是一种实现类似于虚拟智能的机制。然而,我所设想的虚拟智能是从知识集合中选择相关知识,而注意力机制则是以词语集合为单位运作。

因此,注意力机制可以被称为微虚拟智能。

显式注意力机制

如果我们将注意力机制视为微虚拟智能,那么反过来,我之前提到的虚拟智能可以通过构建宏观注意力机制来实现。

而且,这种宏观注意力机制无需添加到大型语言模型的内部结构中,也无需涉及神经网络学习。

它只需要一个用自然语言编写的明确声明即可,例如:“执行任务A时,请参考知识B和知识C。”

这明确了任务A所需的知识。这个声明本身就是一种知识。

这可以被称为显式注意力机制。这个声明可以被视为注意力知识,它明确阐述了在执行任务A时应该关注的知识。

此外,这种注意力知识可以由生成式AI生成或更新。

如果某个任务因知识不足而失败,那么可以根据这次反思,更新注意力知识,将其他知识添加为该任务的参考。

结论

注意力机制极大地提升了生成式AI的能力。

它不仅仅是一个碰巧运作良好的机制;相反,正如我们在此所见,针对每种情况动态地缩小参考信息范围的机制本身,似乎就是高级智能的精髓。

而且,就像虚拟智能和显式注意力知识一样,注意力机制也是在各个层面递归地增强智能的关键。