当前的生成式AI是一种以Transformer的发明为重大突破而蓬勃发展的AI技术。
注意力机制可以被描述为Transformer的决定性特征。这一点在发布Transformer的论文标题“Attention Is All You Need”中得到了简洁的体现。
这背后的背景是,当时的AI研究人员正在进行各种努力和反复试验,以使AI能够像人类一样熟练处理自然语言,他们为成功的方法命名并发表论文。
许多研究人员认为,通过以多样化的方式组合这些多种有效的机制,他们可以逐渐创造出能够像人类一样处理自然语言的AI。他们致力于发现可以与其他机制结合使用的新机制,并找到这些机制的最佳组合。
然而,Transformer颠覆了这一传统观念。论文标题中明确传达的信息是:无需组合各种机制,只需要注意力机制。
当然,Transformer本身确实包含了各种机制,但毫无疑问,注意力机制在其中尤其具有开创性和独特性。
注意力机制概述
注意力机制是一种系统,它允许AI在处理自然语言中的某个特定词语时,从前文包含的众多词语中,学习应该关注哪些词语。
这使得AI能够准确理解词语所指代的对象。例如,当处理指示代词如“这个”、“那个”或“刚才提到的”(指向前文中的某个词语),或位置参照词如“开篇句”、“列出的第二个例子”或“前一段”时,AI能够高精度地理解它们指代的内容。
此外,即使修饰语在句子中相隔较远,它也能正确地进行解释;即使文章篇幅很长,它也能在不丢失当前词语所指上下文的情况下进行解释,避免在其他句子中迷失。
这就是“注意力”的效用。
反过来说,这意味着在解释当前正在处理的词语时,不必要的词语会被屏蔽并从解释中移除。
通过只保留解释给定词语所需的词语,并移除不相关的词语,无论文本多长,需要解释的词语集合都会被限制在少数几个,从而避免解释密度被稀释。
虚拟智能
现在,稍微转换一下话题,我一直在思考虚拟智能的概念。
目前,在商业应用生成式AI时,如果将公司内部所有信息整合为一个知识库提供给AI,庞大的知识量可能会让AI不堪重负,导致其无法正确处理知识。
因此,更有效的方法是根据任务划分知识,为每个任务准备AI聊天机器人,或创建专门用于特定操作的AI工具。
结果就是,在执行复杂任务时,需要将这些拥有分离知识的AI聊天机器人或AI工具组合起来使用。
虽然这代表了当前生成式AI的一个局限性,但从根本上讲,即使是未来的生成式AI,专注于特定任务所需的知识也应该会带来更高的准确性。
相反,我相信未来的生成式AI将能够根据情况在内部区分和利用必要的知识,而无需人类对其进行分割。
这种能力就是虚拟智能。它就像一台虚拟机,可以在一台计算机上运行多个不同的操作系统。这意味着在单一智能内部,多个具有不同专业领域的虚拟智能可以协同运作。
即使是当前的生成式AI也已经能够模拟多方讨论或生成包含多个角色的故事。因此,虚拟智能并非一项特殊能力,而是当前生成式AI的延伸。
微虚拟智能
虚拟智能根据任务缩小所需知识范围的机制,其运作方式与注意力机制相似。
换句话说,它类似于注意力机制,因为它根据当前正在执行的任务,专注于并处理相关知识。
反过来,注意力机制可以说是一种实现类似于虚拟智能的机制。然而,我所设想的虚拟智能是从知识集合中选择相关知识,而注意力机制则是以词语集合为单位运作。
因此,注意力机制可以被称为微虚拟智能。
显式注意力机制
如果我们将注意力机制视为微虚拟智能,那么反过来,我之前提到的虚拟智能可以通过构建宏观注意力机制来实现。
而且,这种宏观注意力机制无需添加到大型语言模型的内部结构中,也无需涉及神经网络学习。
它只需要一个用自然语言编写的明确声明即可,例如:“执行任务A时,请参考知识B和知识C。”
这明确了任务A所需的知识。这个声明本身就是一种知识。
这可以被称为显式注意力机制。这个声明可以被视为注意力知识,它明确阐述了在执行任务A时应该关注的知识。
此外,这种注意力知识可以由生成式AI生成或更新。
如果某个任务因知识不足而失败,那么可以根据这次反思,更新注意力知识,将其他知识添加为该任务的参考。
结论
注意力机制极大地提升了生成式AI的能力。
它不仅仅是一个碰巧运作良好的机制;相反,正如我们在此所见,针对每种情况动态地缩小参考信息范围的机制本身,似乎就是高级智能的精髓。
而且,就像虚拟智能和显式注意力知识一样,注意力机制也是在各个层面递归地增强智能的关键。