跳到内容
本文已通过AI从日语翻译
阅读日语原文
本文属于公共领域(CC0)。请随意自由使用。 CC0 1.0 Universal

自然语言机器学习

传统的机器学习在一个范式下运作:计算机擅长数值计算,使用数值数据进行学习并获取量化参数。

然而,人类不仅能够通过数值机制学习,也能够通过语言学习。我们用语言整理和记录经验,然后回忆、阅读并利用这些语言。

大型语言模型(LLM)也能以类似的方式用语言描述知识,并通过阅读语言来利用知识。

通过利用LLM作为自然语言处理器,基于自然语言的机器学习成为可能,而不仅仅是基于数值的机器学习。

因此,LLM的出现开辟了一个新领域:自然语言机器学习。

LLM的预训练是一种传统的数值机器学习。本文讨论的自然语言机器学习指的是一种利用预训练LLM的新型机器学习。

自然语言机器学习的基本模型

自然语言机器学习既有与传统数值型机器学习相似的方面,也有完全不同的方面。

为了首先理解自然语言机器学习的概念,我们先描述一个基本模型,重点介绍其与传统数值型机器学习相似的部分。

从现在开始,预训练的大型语言模型将被称为LLM。请注意,在此学习过程中,LLM的参数不会发生任何变化。

该基本模型是一个监督学习模型,目标是分类问题

作为学习数据,我们准备多对输入语句及其分类作为正确答案。

例如,假设一家公司设有总务课和庶务课。

这两个部门职责分明。对于诸如“办公室灯泡坏了”、“我忘了门禁卡”或“我想预订总部大厅”等输入语句,分类会指出是总务课还是庶务课负责。

从这些训练数据中,我们只提取输入语句并将其输入到LLM中。

在此,我们通过系统提示有意限制回应,例如:“请说明负责此查询的部门是总务课还是庶务课。您的回答中请勿包含除‘总务课’或‘庶务课’之外的任何字符。”

最初,LLM在不了解该公司知识的情况下生成回应。自然地,它可能会不正确,或者偶尔偶然正确。

对于每个回应,教师系统会判断其是正确还是不正确。然后,输入语句、LLM的回应和判断结果的组合将被保存到知识库中。

这个过程重复大约一半的训练数据

对于剩余的一半训练数据,我们将知识库中记录的所有信息添加到LLM的系统提示中,并执行相同的过程。

此时,知识库已包含有关该公司总务课和庶务课职责划分的信息,因此正确回答的可能性应该比前半部分数据更高。

通过这种方式,结合LLM和知识库的系统可以学习一家公司总务课和庶务课的职责划分。

学习机制本身与传统的数值型机器学习类似。不同之处在于,学习结果反映在知识库中,而不是LLM内部神经网络的参数中。此外,知识库记录的是自然语言,而非数值。

这就是自然语言机器学习的基本模型。

基本模型的现实意义

正如那些使用LLM的人会迅速意识到的那样,这个基本模型缺乏现实意义

这是因为没有必要费力让教师系统判断正确与否;从一开始,可以直接将训练数据本身输入到系统提示中。

然而,通过应用基本模型并稍微改变场景,它就获得了现实意义

例如,假设总务课和庶务课共同设立了一个咨询台,由人工将每一项进来的咨询手动分配给相应的部门。

我们构建一个简单的系统,将这些咨询及其分配结果添加到知识库中。

然后,利用这个知识库,LLM可以取代人工,将新的咨询分配给各个部门。

在这种情况下,如果LLM错误地将属于庶务课的咨询分配给了总务课,总务课的工作人员会将其重新分配给庶务课。这个重新分配的信息也会记录在知识库中。

这种记录分配日志的简单机制,结合LLM和知识库,将构成一个具有现实意义监督自然语言机器学习模型。

这里关键的一点是,再次强调,LLM内部神经网络参数根本没有变化。此外,反馈的学习结果是自然语言句子的集合,而不是数值。

而且,毫无疑问,这个系统涉及的是机器学习,而不是人类学习。

因此,这是一种新形式的机器学习自然语言机器学习

自然语言机器学习的优势

与数值型机器学习不同,自然语言学习具有诸多优势。

简而言之,其决定性特征是压倒性的高学习效率

数值型机器学习通常需要大量的训练数据迭代学习。此外,训练数据预处理也是必要的。

需要大量训练数据是因为要学习的特征量并非包含在单一数据中,而是分布在海量数据之间。

因此,所需的训练数据量大约是真正期望的特征量维度的平方。

迭代学习是必要的,以确保神经网络参数能够得到适当学习而不会陷入局部最小值,这要求每次反馈时的参数变化量很小。

训练数据预处理,例如归一化边缘提取,是为了突出真正期望的特征量。这种预处理也需要付出巨大的努力。

例如,如果使用传统神经网络来学习总务课和庶务课之间的职责划分,假设其特征是50维的,那么至少需要大约1000个或更多的训练数据实例。此外,这些1000多个数据实例可能需要迭代学习大约100次才能达到适当的学习准确性。

而且,如果这1000个训练数据实例包含无关词汇、拼写变体或各种词序和句法结构,学习效率会降低,并且可能学习到不相关的特征量

因此,预处理以去除无关词汇、标准化术语以消除变体以及统一词序和句法是必不可少的。

相比之下,自然语言机器学习所需的训练数据较少,无需使用相同的训练数据进行迭代,并且通常无需预处理

如果总务课和庶务课之间职责划分的特征是50维的,那么对应每个维度的50条信息就足够了。

此外,这并不意味着需要50个独立的句子。

一句“与A、B、C、D相关的职责由庶务课负责”这样的句子可以包含四个维度信息。

此外,通过语言抽象,可以将来自多个维度的信息进行聚合。一句“大楼消耗品和设施的维护由庶务课负责”这样的句子聚合了广泛的维度信息,包括灯泡更换和自动门故障。

可以说,这种抽象通过利用LLM的预训练知识和推理能力,减少了训练数据

而且,从根本上说,自然语言学习不需要迭代学习。一旦上述句子被添加到知识库中,学习就完成了。

此外,知识预处理也是不必要的。即使总务课或庶务课的解释混杂在各种文本中,它们仍然可以作为知识被利用。

或者,如前面的例子所示,像咨询和分配记录这样的原始数据,无需预处理即可立即用作训练数据

因此,自然语言机器学习的学习效率远高于数值型机器学习。

结论

与计算机高速的数值计算能力相比,大型语言模型的自然语言处理能力相当缓慢。

然而,自然语言机器学习能够实现高效学习,远远弥补了高速数值计算与缓慢自然语言处理能力之间的差距。

此外,通过数值学习取得惊人进展的大型语言模型,根据规模法则,似乎正通过简单的规模扩大接近性能提升的极限。

在这种情况下,重点极有可能转向通过自然语言机器学习来提升能力。