跳到内容
本文已通过AI从日语翻译
阅读日语原文
本文属于公共领域(CC0)。请随意自由使用。 CC0 1.0 Universal

学习如何学习:与生俱来的智能

人工智能通过一种名为机器学习的技术获得智能行为。

虽然这种学习是按照人类开发的程序进行的,但为什么智能会从这些程序和人工智能的结构中 Emerges,这一点尚未得到解释。

在本文中,我将通过思考学习本身的本质来探究智能产生的 Mnemonic。

当我们深入探讨学习这个概念时,我们会发现人工智能和我们的大脑都拥有一种与生俱来的学习能力,即学习如何学习的倾向。

这暗示着存在一种可以称为“天生的框架构建者”(natural born frameworker)的机制。

身体学习与语言学习

我们通过用眼睛观察事物和移动身体来了解周围的世界,并拓展自己的能力。

这也是一种学习形式,可以称之为身体学习。

另一方面,当人们普遍谈到学习时,他们可能想象的是通过阅读教科书或听老师讲解来增加知识。

除了这种基于课程的学习之外,我们还从与朋友的对话、在线新闻等途径获取各种知识。

这类学习不是通过视觉记忆图像或通过身体运动来学习,而是通过语言学习。

形而下学习与形而上学习

在语言学习中,有些信息只能通过反复重复才能记住,而有些则在听过一两次后就能记住。

此外,还有一些知识,即使不记住细节,也能在需要时从书架或互联网上查阅并使用。

就获取知识并在需要时恰当利用而言,这两种模式都可以称为学习。

其中,只能通过反复重复才能记住的知识可以称为形而下知识。其学习过程是形而下学习,涉及记忆概念本身。

这类似于身体学习,即通过眼睛看物体或移动身体来反复学习。这些也可以归类为形而下学习。

另一方面,只需较少重复次数就能记住,或者可以当场查阅并使用的知识的获取,可以称为形而上学习。

在这种情况下,通过形而下学习获得的预先学习的概念可以被利用,以将知识作为这些概念的类型或概念的组合来学习。

由于可以通过形而下学习已经获得的概​​念,因此形而上学习不需要重复。

自然语言机器学习

让我们将此应用于人工智能中的机器学习。

通常,机器学习中使用的神经网络执行形而下学习,这涉及重复学习概念。

另一方面,大型语言模型能够进行类似人类的自然语言处理,可以通过语言进行学习。

在大型语言模型的预训练和微调过程中,会进行通过语言的形而下学习。

此外,预训练过的大型语言模型可以通过利用输入句子中包含的知识来回答问题,从而进行即时形而上学习。

得益于这种通过语言进行形而上学习的能力,大型语言模型无需重复学习即可利用新知识。

这可以称之为自然语言机器学习,与传统上迭代调整模型参数的数值机器学习形成对比。

自然语言作为形而上界面

自然语言位于区分形而下学习和形而上学习的界面。

自然语言的迷人之处在于,它可以通过形而下学习获得,并且在此基础上,它还能实现形而上学习。

自然语言之外的形而上接口

实际上,即使在身体学习中,也存在形而下学习和形而上学习。例如,一个擅长运动的人可以迅速适应他们首次接触的新运动。

同样地,一个精通生物学的人在看到一个新物种时,可以立即理解其特征。

因此,在身体学习中,也存在与自然语言具有相似地位的形而上接口。

框架

在这些接口处存在着框架,它们不同于基本的概念或知识,而是定义了它们之间的关系和结构,或者支持新的结构化。

通过形而下学习获得各种形而下知识后,可能可以从这些形而下知识之间的联系中学习形而上接口处的框架。

通过身体学习获得的框架使得新知识在习得后能够立即以形而上的方式被学习。然而,通过这种形而上学习获得的知识并不容易传达给他人。

另一方面,通过语言学习获得的框架就是自然语言本身。

因此,在学习了自然语言框架之后,通过形而上学习获得的知识可以直接输入到他人的语言学习中。

这不仅适用于以语言学习为基础的知识,如教科书或在线新闻。

一个经验丰富的足球运动员,第一次打棒球时,也许能够通过语言将所获得的关于棒球的形而上知识传达给其他足球运动员。这意味着如果人们拥有相同的形而下知识,所谓的“窍门”或诀窍可以通过口头交流。

此外,一个人还可以通过语言与其他生物学家分享他们所看到的新物种的知识。

因此,自然语言被证明是形而上接口上一个非常强大的框架。

虚拟框架

在自然语言之上,人们可以习得其他框架。

这些是领域特定框架或形式框架。

在各种学术领域、商业部门和日常生活中,存在着多种多样的领域特定框架。

学者们在各自专业框架内进行研究,可以做出新发现,并轻松地将这些知识传达给拥有相同框架的其他学者。

框架本身有时可以用自然语言表达,在这种情况下,拥有自然语言框架的人或大型语言模型可以学习和理解它。

商业模式和烹饪食谱也是这类可以用自然语言表达的领域特定框架的例子。

此外,数学公式、编程语言和商业分析框架都是形式框架。

这些框架也可以用自然语言表达或解释。

这些建立在自然语言之上的领域特定框架和形式框架可以称为虚拟框架。

如果你想象一台物理计算机上运行着不同操作系统的虚拟机,就会很容易理解这一点。一个不同的框架在自然语言这一基础框架之上运行。

原生框架

此外,虽然这些虚拟框架最初需要通过自然语言来理解,但随着人们对其的熟悉,它们开始绕过自然语言的解释和理解,直接作为建立在形而下知识之上的形而上接口框架发挥作用。

这可以称之为原生框架。

从某种意义上说,自然语言也是一种原生框架,但这仅限于母语。通常,母语之外的语言是作为虚拟框架习得的。随着熟练度的提高,它们会逐渐接近原生框架。

领域特定框架和形式框架也是如此。数学家可以用数学公式进行原生交流,程序员可以仅通过没有注释的源代码来理解彼此的意图。

这表明从虚拟框架到原生框架的演进也可以应用于大型语言模型。

检测常用虚拟框架,然后利用这些框架生成大量示例数据,再进行微调使其成为原生框架的想法,是值得立即尝试的。

天生的框架构建者

考虑到这一点,人们会意识到,在大型语言模型的预训练过程中,不仅仅是微调,它们也有可能在学习领域特定框架和形式框架。

在这个过程中,可以想象,它们并非从一开始就原生学习领域特定或形式框架,而是首先学习自然语言框架,然后,在掌握该框架的过程中或之后,学习领域特定和形式框架,使其成为原生框架。

深入探究这种逐步的框架学习,甚至可以设想自然语言学习本身就是一个非常细粒度、逐步的框架学习的并行流水线。

换句话说,在预训练期间作为训练数据提供的大量文本中,大型语言模型可能不仅学习单个概念,还学习自然语言的一些非常简单的规则作为框架。然后,它们以这些简单框架为基础,反复学习稍微更复杂的规则。

这将使它们能够从最初学习词汇概念的阶段,进展到记忆复合词和基本语法,再到理解句子,以及学习写作和表达技巧等复杂内容。

这可以理解为一种模型,即它们以循序渐进和复杂的方式学习框架,将一个框架作为学习下一个框架的基础。

这凸显了大型语言模型作为“天生的框架构建者”的特性,它们从一开始就具备学习框架的机制。

注意力机制

实现“天生的框架构建者”这一能力的技术是注意力机制。

注意力机制类似于从语境中选择相关的标记。它阐明了标记之间的关系。这正是框架的本质:通过保留重要概念同时阐明它们之间的关系来进行抽象。

通过为每个标记切换这种选择,它能够动态地切换框架。

这使我们能够使用“天生的框架构建者”模型来解释为什么注意力机制是决定大型语言模型进化的技术。

结论

如果这种机制确实发生在大型语言模型的预训练过程中,那么以前神秘的大型语言模型机制就可以得到解释。

这些机制包括本文讨论的形而下学习和形而上学习、作为形而上接口的框架、使语言学习和虚拟框架成为可能的自然语言,以及实现“天生的框架构建者”的注意力机制。

此外,由此还引申出两个观点。

首先,自然语言的结构非常适合逐步将复杂的框架从简单的框架中内化。

如果自然语言最初以简单的形式出现在人类社会中,并逐渐发展出更复杂、更丰富的结构,这是自然而然的结果。

此外,其结构如果能支持快速学习,将更具优势。假设拥有不同自然语言的多个社会之间存在竞争,那么更适合学习的自然语言得以存活至今的假说便很容易成立。

反思自然语言的这种特性,引出了第二个观点:我们人类也是天生的框架构建者。

即使具体的底层基础和机制有所不同,我们的大脑也必然配备了一种类似于注意力机制的机制,能够逐步学习和灵活适应框架。