跳到内容
本文已通过AI从日语翻译
阅读日语原文
本文属于公共领域(CC0)。请随意自由使用。 CC0 1.0 Universal

学习的学习:与生俱来的智能

人工智能能够通过机器学习技术展现出智能行为。

尽管这一学习过程遵循人类开发的程序进行,但智能为何会从这些程序和人工智能的结构中涌现,目前尚未得到完全解释。

在本文中,我将通过思考学习的本质,探究智能涌现的原因。

当我们深入探究学习的概念时,会发现人工智能和我们的大脑都拥有一种与生俱来的“学习如何学习”的本性。

这暗示着存在一种可以称之为“天生框架构建者”的机制。

身体学习与语言学习

我们通过眼睛观察物体、活动身体来认识周围的世界,并扩展自己的能力。

这也是一种学习形式,可以称之为身体学习

另一方面,当我们通常谈及学习时,可能会想到通过阅读教科书或听老师讲解来增加知识。

除了基于教育课程的学习之外,我们还会从与朋友的对话、网络新闻等途径获取各种知识。

这种学习并非通过视觉记忆图像或身体运动来学习,而是语言习得

形而下学习与形而上学习

在基于语言的学习中,有些知识需要反复迭代才能记住,而有些知识只需一次或几次接触就能学会。

另外,有些知识即使没有完全记住,也可以在需要时从书架或互联网上检索详细信息来使用。

就获取知识并在需要时适当地利用而言,这两种模式都可以视为学习

其中,若无反复迭代便无法记住的知识,可称之为形而下知识。学习概念本身的过程即为形而下学习

这类似于身体学习,即通过眼睛观察物体或活动身体进行重复学习。这些也可以归类为形而下学习

反之,通过少量尝试即可记住或即时查找并使用的知识,可称之为形而上学习

在这种情况下,通过形而下学习获得的预先学习的概念,可以用来学习作为这些概念类型或概念组合的新知识。

由于可以利用通过形而下学习已掌握的概念,形而上学习无需重复。

自然语言机器学习

让我们将此应用于人工智能领域的机器学习

通常,机器学习中使用的神经网络进行的是形而下学习,即通过重复学习来掌握概念。

另一方面,能够像人类一样进行自然语言处理的大型语言模型,可以进行语言习得

在大型语言模型的预训练微调过程中,会发生基于语言的形而下学习

经过训练的大型语言模型随后可以通过利用输入句子中包含的知识来回答问题,这意味着它正在进行即时形而上学习

这种基于语言的形而上学习能力使得大型语言模型无需重复学习即可利用新知识。

这与传统上通过迭代调整模型参数的数值型机器学习形成对比,可以称之为自然语言机器学习

自然语言作为形而上界面

自然语言位于区分形而下学习形而上学习的界面。

自然语言的有趣之处在于,它既可以通过形而下学习获得,又可以在其之上实现形而上学习

自然语言之外的形而上界面

事实上,形而下学习形而上学习也存在于身体学习中。例如,擅长体育的人能够迅速适应一种他们从未接触过的新运动。

同样,一个对生物学有深厚知识的人,在看到一个新物种时,也能立刻理解其特征。

因此,即使在身体学习中,也存在着一个与自然语言地位相似的形而上界面

框架

这些界面上存在的,是一种区别于基本概念或知识的框架;它定义了它们之间的关系和结构,并能实现新的结构化。

当通过形而下学习获取了各种形而下知识后,有时可以从这些形而下知识之间的联系中,学习到形而上界面上的框架

来源于身体学习的框架,在掌握之后,能够通过形而上学习立即获取新知识。然而,通过这种形而上学习获得的知识,并不容易传达给他人。

另一方面,源于语言习得框架,其本身就是自然语言

因此,通过学习自然语言框架而经由形而上学习获得的知识,可以直接输入到他人的语言习得中。

这不仅适用于主要基于语言习得的知识,例如教科书或在线新闻。

一个经验丰富的足球运动员首次尝试棒球时,也许能够清晰地表达他们所获得的棒球形而上知识,并将其传达给其他经验丰富的足球运动员。这意味着,如果人们共享相同的形而下知识,他们就可以用语言交流所谓的“诀窍”或“技巧”。

此外,观察到新物种的人也可以口头向其他生物学家传达相关知识,从而实现知识共享。

由此可见,自然语言被揭示为位于形而上界面上一个非常强大的框架

虚拟框架

自然语言之上,还可以获取另一种框架

其中包括领域特定的框架或形而上框架

在各种学术领域、商业部门和日常生活中,存在着多种多样的领域特定框架

学者们可以在其专业框架内做出新发现,并轻松地将这些发现作为知识传达给拥有相同框架的其他学者。

框架本身有时可以用自然语言表达,在这种情况下,拥有自然语言框架的个人或大型语言模型都可以获取并理解它。

商业模式和烹饪食谱也是可以用自然语言表达的领域特定框架的例子。

此外,数学公式、编程语言和商业分析框架都是形式化框架

这些也可以用自然语言表达或解释。

这种建立在自然语言之上的领域特定框架和形式化框架可以被称为虚拟框架

这可以很容易地通过想象一台虚拟机在物理计算机上运行另一个操作系统来理解。另一个框架正在自然语言之上运行,而自然语言则充当基础框架

原生框架

最初,这种虚拟框架必须通过自然语言来理解,但随着实践,它将绕过自然语言的解释和理解,直接作为基于形而下知识构建的形而上界面框架来运作。

这可以称之为原生框架

自然语言在某种意义上是一种原生框架,但这仅限于母语。通常,母语以外的语言是作为虚拟框架习得的。随着熟练度的提高,它们会逐渐接近原生框架的地位。

领域特定框架和形式化框架也是如此。数学家可以使用数学公式进行原生交流,程序员可以仅通过不带注释的源代码来理解彼此的意图。

这表明,从虚拟框架原生框架的转变也可以应用于大型语言模型。

检测常用虚拟框架,使用这些虚拟框架生成大量示例数据,然后对其进行微调,使其成为原生框架的想法,值得立即尝试。

天生框架构建者

考虑到这一点,我们意识到大型语言模型可能不仅在微调期间,而且在预训练期间也在学习这些专业和形式化的框架

此外,在这个过程中,很可能它们并非从一开始就原生学习专业或形式化框架。相反,它们首先学习自然语言框架,然后,在掌握该框架的过程中或之后,再学习专业或形式化框架并将其同化为原生框架

深入思考这种渐进式框架学习的理念,甚至可以设想自然语言学习本身就是一个高度细粒度、渐进式框架学习的并行管道。

也就是说,在预训练期间提供的海量文本学习数据中,大型语言模型可能不仅学习了单个概念,还学习了自然语言中一些非常简单的规则作为框架。然后,它们以这些简单框架为基础,反复学习稍微复杂的规则。

通过这种方式,从学习单个词汇概念的阶段开始,它们应该能够习得复合词和基本语法,然后理解句子,并最终学习文学技巧和表达风格等复杂元素。

这可以理解为一种分层复合的框架学习模型,其中一个框架作为学习下一个框架的基础。

这突显了大型语言模型作为“天生框架构建者”的形象,即它们从一开始就固有地具备学习框架的机制。

注意力机制

实现天生框架构建者的技术是注意力机制

注意力机制类似于在上下文中选择需要关注的令牌。它阐明了令牌之间的关系。这正是框架本身的性质:通过保留重要概念进行抽象,同时阐明这些概念之间的关系。

通过为每个令牌切换这种选择,也可以动态切换框架

这使得我们能够用天生框架构建者的模型,解释为何注意力机制是大型语言模型演进的关键技术。

结论

如果这种机制确实发生在大型语言模型的预训练过程中,那么这些模型先前神秘的机制就变得可以解释了。

这种解释涵盖了我们讨论过的形而下学习和形而上学习,作为形而上界面的框架,使语言习得虚拟框架成为可能的自然语言,以及实现天生框架构建者注意力机制

此外,由此还引申出两个额外的含义。

首先,自然语言具有高度适宜的结构,能够将简单的框架逐步发展成复杂的原生框架

如果自然语言最初以简单形式出现在人类社会中,并逐渐演化出更复杂和丰富的结构,那么这是一个自然的结果。

此外,一个能实现快速学习的结构将更具优势。假设拥有各种自然语言的多个社会相互竞争,那么最适合学习的自然语言存活至今的假设便容易成立。

反思自然语言的本质,引出了第二个含义:我们人类也是天生框架构建者

即使具体的底层基础和机制有所不同,我们的大脑也必然配备了一套类似于注意力机制的系统,能够逐步学习和灵活修改框架