跳到内容
本文已通过AI从日语翻译
阅读日语原文
本文属于公共领域(CC0)。请随意自由使用。 CC0 1.0 Universal

自然语言机器学习

传统的机器学习范式是:计算机擅长数值计算,通过数值数据进行学习并获得数值参数。

另一方面,我们不仅可以通过数值机制学习,还可以通过语言学习。我们将经验组织并记录为文字,然后回忆或阅读这些文字来利用它们。

大型语言模型(LLM)同样可以利用文字描述知识,并通过阅读文字来利用它们。

通过利用大型语言模型这种自然语言处理器,基于自然语言的机器学习成为可能,而不仅仅是基于数值的机器学习。

因此,大型语言模型的出现开启了一个新领域:自然语言机器学习。

大型语言模型的预训练是传统的数值机器学习。这里描述的自然语言机器学习是指一种利用预训练大型语言模型的新型机器学习。

自然语言机器学习的基本模型

自然语言机器学习与传统的数值型机器学习既有相似之处,也有截然不同之处。

首先,为了帮助理解自然语言机器学习的概貌,我们将从与传统数值型机器学习相似的部分入手,将其作为一个基本模型进行阐述。

从现在开始,我们将预训练的大型语言模型称为LLM。请注意,在此学习过程中,LLM的参数不会发生任何变化。

该基本模型是针对分类问题的监督学习。

为训练数据准备多对输入句子及其分类,作为正确答案。

例如,假设某公司设有总务部和行政部。

这两个部门有明确的职责划分。对于“办公室灯泡不亮了”、“我忘了门禁卡”或“我想预订总部主会场”等输入句子,其分类会指明是总务部还是行政部负责。

从这些训练数据中,只提取输入句子并输入到LLM中。

此时,作为系统提示,我们有意限制回答,声明:“请回答此咨询由总务部或行政部中的哪个部门负责。您的回答中除了‘总务部’或‘行政部’之外,请勿包含任何其他字符。”

最初,LLM将在不了解该公司任何知识的情况下生成答案。自然地,有些答案会是错误的,而有些可能只是偶然正确。

对于每个答案,教师系统会判断其正确与否。然后,将输入句子、LLM的答案以及判断结果的组合保存到知识库中。

这个过程会重复进行,直到处理大约一半的训练数据。

对于剩余的另一半训练数据,执行相同的过程,但这次会将知识库中记录的所有信息添加到LLM的系统提示中。

此时,知识库中已包含该公司总务部和行政部职责划分的信息,因此获得正确答案的概率应高于处理前半部分数据时的概率。

通过这种方式,结合LLM和知识库的系统可以学习该公司总务部和行政部的职责划分。

其学习机制本身与传统的数值型机器学习相似。不同之处在于,学习结果反映在知识库中,而不是LLM内部神经网络的参数中。并且,知识库中记录的是自然语言,而非数值。

这就是自然语言机器学习的基本模型。

基本模型的现实意义

任何使用LLM的人都会很快意识到,这个基本模型缺乏现实意义。

这是因为,与其费力让教师系统判断答案的对错,不如从一开始就直接将训练数据本身输入到系统提示中。

然而,通过应用基本模型并稍加改变场景,它便能获得现实意义。

例如,假设总务部和行政部共同设立了一个咨询台,由人工将接收到的咨询逐一分类到适当的部门。

可以创建一个简单的系统,将这些咨询及其路由结果添加到知识库中。

然后,利用这个知识库,LLM可以接替人工,将新的咨询路由到相应的部门。

在这种情况下,如果LLM错误地将原本应发往行政部的咨询路由给了总务部,总务部的负责人会将该咨询重新路由回行政部。这种重新路由的信息也会被记录到知识库中。

这种记录路由日志的简单机制,结合LLM和知识库系统,将成为一个具有现实意义的自然语言机器学习的监督模型。

这里的关键点再次强调:LLM内部的神经网络参数根本没有改变。而且,反馈的学习结果不是数值,而是自然语言句子的集合。

此外,这个系统毫无疑问是一个机器学习系统,而不是人类学习系统。

因此,这是一种新形式的机器学习:通过自然语言进行的机器学习。

自然语言机器学习的优势

与数值型机器学习不同,自然语言学习具有诸多优势。

简而言之,其显著特点是压倒性的学习效率。

数值型机器学习通常需要大量的训练数据和迭代学习。此外,训练数据的前处理也是必不可少的。

需要大量训练数据的原因是,我们希望学习的特征并非包含在单一数据中,而是分布在大量数据中。

因此,所需的训练数据量大约是真实期望特征维度平方的数量级。

需要迭代学习是因为,为了确保神经网络参数能够适当地学习而不陷入局部最优,单次反馈循环中参数的变化量必须很小。

训练数据的前处理,如归一化和边缘提取,是突出真实期望特征所必需的。这种前处理也需要付出巨大的努力。

例如,如果使用传统的神经网络来学习行政部和总务部之间的职责划分,且其特征维度为50,那么至少需要1000个或更多的训练数据点。此外,这1000多个数据点可能需要迭代大约100次才能达到足够的学习精度。

而且,如果这1000个数据点包含无关词语、词语拼写变体或各种词序和语法,学习效率会降低,或者会学习到不相关的特征。

因此,前处理,即去除无关词语、标准化词汇以消除变体、统一词序和语法,是不可或缺的。

另一方面,自然语言机器学习所需的训练数据量较少,不需要对同一训练数据进行迭代,并且在许多情况下不需要前处理。

如果行政部和总务部职责划分的特征维度为50,通常对应每个维度的50条信息就足够了。

此外,这并非意味着需要50个独立的句子。

像“与A、B、C、D相关的职责由行政部处理”这样的一个句子可以包含四个维度的信息。

而且,通过语言抽象化,可以将多个维度的信息聚合起来。“行政部负责楼宇消耗品和设备维护”这样的一个句子,聚合了包括灯泡更换和自动门故障在内的广泛维度信息。

这种抽象化利用了LLM的预训练知识和推理能力,从而减少了所需的训练数据量。

而且,从根本上讲,自然语言学习不需要迭代学习。一旦上述句子被添加到知识库中,学习就完成了。

此外,知识的前处理也不是必需的。即使行政部或总务部的描述混杂在各种其他句子中,它们仍然可以作为知识被利用。

或者,像前述例子中查询和分配日志那样的原始数据,也可以无需前处理,立即用作训练数据。

通过这种方式,自然语言机器学习可以比数值型机器学习更高效地进行学习。

结论

与计算机高速的数值计算能力相比,大型语言模型的自然语言处理能力相当缓慢。

然而,与数值型机器学习相比,自然语言机器学习能够实现更高效的学习。

这种效率远远超过了高速数值计算能力与缓慢自然语言处理能力之间的差距。

此外,通过数值学习取得了惊人进化的大型语言模型,根据缩放法则,似乎正通过简单的规模扩展接近其能力提升的极限。

在这种情况下,非常有可能将重点转向通过自然语言机器学习来提升能力。