本文旨在对人工学习智能系统(Artificial Learning Intelligence System: ALIS)进行整理,涵盖其概念、原理,以及基本设计和开发方法。
概念
当前的生成式 AI(主要是大型语言模型)是基于使用神经网络的监督学习进行训练的。
我们将这种神经网络的训练过程定位为先验学习。
ALIS 是一种系统,它通过引入一种独立于先验学习的后天学习过程,从而整合先验学习和后天学习过程,实现全面的推理。
在这种后天学习中,学习到的知识被存储在神经网络外部,并在推理过程中加以利用。
因此,ALIS 的技术核心在于可复用知识的提取、存储,以及推理过程中知识的选择和利用。
此外,ALIS 不仅仅是一种单一的元素技术,更是一种结合了先验学习和后天学习的系统技术。
学习智能系统的要素
ALIS 将现有先验学习和未来后天学习都视为在学习和推理的框架内遵循相同原则。
为了解释 ALIS 中的学习原理,我们定义了学习智能系统的五个要素:
第一个是智能处理器。它指执行使用知识进行推理以及提取学习知识的处理系统。
智能处理器的代表性例子包括大型语言模型(LLM)和人脑的部分区域。
第二个是知识库。它指存储提取到的知识并可在需要时检索的存储位置。
在 LLM 中,知识库是神经网络的参数。在人类中,它对应于大脑中的长期记忆。
第三个是世界。它指人类或 ALIS 等学习智能系统感知的外部环境。
对于人类而言,世界就是现实本身。对于 LLM 而言,接收 LLM 输出并向其提供反馈的机制被认为是与世界等价的。
第四个是状态记忆。它指学习智能系统在推理过程中使用的内部临时记忆,类似于草稿本。
在 LLM 中,这是推理过程中使用的内存空间,称为隐藏状态。在人类中,它对应于短期记忆。
第五个是框架。这就是所谓的思维框架。在学习智能系统的术语中,它指在推理过程中选择必要知识的标准,以及组织状态记忆的逻辑状态空间结构。
在 LLM 中,它是隐藏状态的语义结构,通常其内容模糊且人类难以理解。此外,知识选择被整合到注意力机制中,该机制为每个正在处理的标记选择要引用哪些现有标记。
对于人类而言,如上所述,它就是思维框架。当使用特定的思维框架进行思考时,某些技能诀窍会从长期记忆中被回忆并加载到短期记忆中。然后,根据思维框架组织当前感知到的信息以理解情况。
学习智能系统的原理
学习智能系统运行如下:
智能处理器对世界施加作用。世界根据该作用返回结果。
智能处理器从这些结果中提取可复用知识,并将其存储在知识库中。
当智能处理器反复对世界施加作用时,它会从知识库中选择知识,并利用这些知识修改其行动方式。
这是基本机制。
然而,从根本上讲,知识提取、存储、选择和利用的方法决定了系统能否实现有意义的学习。
人类拥有能够有效进行知识提取、存储、选择和利用的机制,这使得他们能够学习。
包括大型语言模型(LLM)在内的神经网络也拥有存储、选择和利用知识的机制,尽管知识提取部分由外部教师处理。只要有教师提供输入,它们就能够学习。
此外,学习智能系统还可以通过将框架的提取、存储、选择及其在状态记忆中的利用方式作为知识来学习,从而实现更复杂的学习。
知识类型
基于这一原理,在设计后天学习时,有必要明确后天知识将采取何种信息形式。
可以将后天知识作为神经网络的参数单独学习。
然而,后天知识不必仅限于神经网络参数。一个现实的候选是自然语言文本化的知识。
如果知识是自然语言文本化的,则可以利用大型语言模型(LLM)的自然语言处理能力进行提取和利用。此外,它还可以作为常规 IT 系统中的数据进行处理,从而易于存储和选择。
而且,自然语言文本化的知识便于人类和其他 LLM 进行检查、理解,在某些情况下还可以进行编辑。
它还可以与其他学习智能系统共享,并进行合并或拆分。
出于这些原因,ALIS 概念中的后天知识最初将被设计为以自然语言文本化的知识为目标。
后天状态记忆与框架
我已经解释了选择自然语言文本化知识作为后天知识的优点。
同样,自然语言文本也可以用于推理的状态记忆和框架。
框架作为一种概念结构,也可以作为自然语言文本化的知识存储在知识库中并加以利用。
当根据该框架定义的结构初始化或更新状态时,可以使用基于文本的状态记忆。
通过将 ALIS 设计为不仅将文本格式用于后天知识,还用于框架和状态记忆,ALIS 可以利用大型语言模型(LLM)的自然语言处理能力进行后天学习和一般推理。
形式知识
后天知识、框架和状态记忆不仅可以用自然语言文本表示,还可以用更严谨的形式语言或形式模型表示。
虽然我写了“选择”,但 ALIS 的目标是整合多种后天知识学习机制,以实现先天学习和后天学习的混合利用。
用形式语言或形式模型表示的知识可以更加严谨且没有歧义。
此外,如果一个框架用形式语言或形式模型表达,并且初始状态在状态记忆中扩展,那么形式模型就可以由智能处理器(而非 LLM)处理,以进行严谨的模拟和逻辑推理。
这种形式语言和形式模型的典型例子就是编程语言。
随着系统对世界的学习,如果它能够将底层的规律和概念作为程序在一个框架内表达出来,那么这些就可以由计算机进行模拟。
专栏 1:知识的类型
当我们整理学习智能系统中的知识时,可以清楚地看到,它大致可以分为三个系统和两种类型。
这三个系统是:由神经网络处理的网络参数知识、自然语言中的自然知识,以及形式语言中的形式知识。
这两种类型是无状态和有状态。
无状态的网络参数知识是直觉知识,例如深度学习 AI 中的知识。猫和狗的特征,无法通过思考或言语识别,可以作为无状态网络参数知识来学习。
有状态的网络参数知识是模糊的、通过迭代过程获得的知识,例如生成式 AI 中的知识。
无状态的自然知识是与词语含义相关的知识。
有状态的自然知识是包含句子中上下文的知识。
一些自然知识本质上包含在有状态网络参数知识中,但也有一些知识可以通过自然语言文本后天获取。
无状态的形式知识是可以通过不包含迭代的数学公式表达的知识。有状态的形式知识是可以通过程序表达的知识。
人脑的短期记忆也可以用作自然知识和形式知识的状态记忆。
然而,由于是短期记忆,存在难以稳定维持状态的问题。此外,它不擅长以形式化、无歧义的状态保存知识。
另一方面,纸张、计算机或智能手机可以用作记录和编辑自然语言文本、形式语言或形式模型的状态记忆。
通常,纸张或计算机上的数据常被视为用于存储知识的知识库,但它也可以用作组织思想的状态记忆。
因此,很明显,人类通过巧妙地利用这三个系统和两种类型的知识来执行智力活动。
ALIS 也具有通过启用和增强利用这三个系统和两种类型的知识的智力活动来显著提高其能力的可能性。
特别是,ALIS 的优势在于能够利用庞大的知识库和状态记忆。此外,它可以轻松地为每个知识库和状态记忆准备多个实例,并通过切换或组合它们来执行智力任务。
专栏 2:智力编排
虽然知识库能够存储大量知识是一个优势,但由于生成式 AI 一次可使用的 token 数量限制以及不相关知识会成为噪音的制约,仅仅拥有大量知识并不一定对智力活动有利。
另一方面,通过适当地分割知识库,创建高密度、专门化的知识库,收集特定智力任务所需的知识,可以缓解 token 限制和噪音问题。
作为交换,这类专门化的知识库将仅适用于那些特定的智力任务。
许多智力活动是各种智力任务的复杂组合。因此,通过将知识根据智力任务类型划分为专门知识库,并将智力活动细分为智力任务,ALIS 可以在适当切换专门知识库的同时执行整个智力活动。
这就像一个由演奏不同乐器的专业音乐家组成的管弦乐队,以及一位指挥家领导整个乐队。
通过这种系统技术,“智力编排”,ALIS 将能够组织其智力活动。
ALIS 基本设计与开发方法
接下来,我将整理 ALIS 的开发方法。
正如在原理和专栏中已经指出的那样,ALIS 本身的设计使其功能和资源易于扩展。这是因为 ALIS 的本质不在于特定功能,而在于知识的提取、存储、选择和利用过程。
例如,可以准备多种类型的知识提取机制,然后根据系统设计进行选择或同时使用。
此外,可以使 ALIS 自行执行这种选择。
存储、选择和利用也可以类似地自由选择或并行化。
因此,ALIS 可以增量式和敏捷地开发,无需采用瀑布式设计整个功能。
ALIS 的开端
现在,让我们设计一个非常简单的 ALIS。
基本的用户界面将是熟悉的聊天 AI。最初,用户输入将直接传递给大型语言模型(LLM)。LLM 的响应随后将显示在用户界面上,系统将等待下一个用户输入。
当下一个输入到来时,LLM 将不仅接收新输入,还将接收用户与 LLM 之间迄今为止的完整聊天历史记录。
在这个聊天 AI 用户界面背后,我们将准备一个机制,用于从聊天历史记录中提取可重用知识。
这可以作为对话结束时或定期执行的过程添加到聊天 AI 系统中。当然,LLM 将用于知识提取。
该 LLM 将被赋予 ALIS 的概念和原则,以及知识提取的技巧,作为系统提示。如果知识未能按预期提取,应通过试错来完善系统提示。
从聊天历史中提取的知识将直接存储在知识湖中。知识湖是一种在知识被结构化之前,简单地以扁平、非结构化状态存储知识的机制。
接下来,我们将准备一个结构化机制,以便更容易地从知识湖中选择知识。
这意味着提供用于语义搜索的嵌入向量存储(通常在 RAG 中使用),以及关键词索引等。
更高级的选项包括生成知识图谱或执行类别分类。
这种知识湖的结构化信息集合将被称为知识库。整个知识库和知识湖将构成知识存储。
接下来,我们将把知识存储集成到聊天 UI 处理中。
这基本上与一般的 RAG 机制相同。对于用户输入,将从知识存储中选择相关知识,并与用户输入一起传递给 LLM。
这使得 LLM 在处理用户输入时能够自动利用知识。
通过这种方式,知识将随着与用户的每次对话而积累,从而实现一个简单的 ALIS,它利用从过去对话中积累的知识。
简单场景
例如,想象一个用户正在使用这个简单的 ALIS 开发一个 Web 应用程序。
用户报告说,LLM 提出的代码导致了错误。在用户和 LLM 协作排除故障后,他们发现 LLM 所了解的外部 API 规范已过时,并且在适应最新的 API 规范后,程序才能正常运行。
从这个聊天线程中,ALIS 就可以在其知识库中积累知识:具体来说,就是 LLM 所了解的 API 规范已过时,以及最新的 API 规范是什么。
然后,下一次创建使用相同 API 的程序时,ALIS 将能够利用这些知识,从一开始就生成基于最新 API 规范的程序。
初始 ALIS 的改进
然而,为了实现这一点,必须根据用户输入来选择这些知识。这种知识可能不会直接与用户输入相关联,因为有问题的 API 名称可能不会出现在用户的输入中。
在这种情况下,API 名称只会在 LLM 的响应中出现。
因此,我们将通过添加预分析和后检查机制来稍微扩展这个简单的 ALIS。
预分析类似于近期 LLM 中的“思考模式”。将准备一个能够以文本形式保存状态记忆的内存,并且系统提示将指示 LLM 在接收到用户输入时执行预分析。
LLM 的预分析结果将存储在状态记忆中。根据这个预分析结果,将从知识库中选择知识。
然后,聊天历史、预分析结果、与用户输入对应的知识以及与预分析结果对应的知识将被传递给 LLM 以接收响应。
此外,LLM 返回的结果也将用于从知识库中搜索知识。包括在那里找到的知识,LLM 将被要求执行后检查。
如果发现任何问题,问题点和指摘的原因将被包含在内并传回给聊天 LLM。
通过在预分析和后检查期间提供选择知识的机会,我们可以增加利用积累知识的机会。
展望
这种构建初始 ALIS,然后通过添加改进来解决其弱点的方法,完美地诠释了敏捷开发和 ALIS 的增量改进。
此外,正如所举例说明的,初始 ALIS 最适合用于软件开发。这是因为它是一个高需求领域,也是一个知识可以清晰、轻松积累的领域。
这是一个是非分明的领域,但同时也是一个需要且重视试错、迭代知识积累的关键领域。
此外,由于 ALIS 开发本身就是软件开发,ALIS 开发者能够成为 ALIS 用户本身,这一点也很有吸引力。
而且,除了 ALIS 系统,知识湖也可以在 GitHub 等平台上开放共享。
这将使许多人能够协作改进 ALIS 系统和积累知识,每个人都能从中受益,从而进一步加速 ALIS 的开发。
当然,知识共享不限于 ALIS 开发者,也可以从所有使用 ALIS 的软件开发者那里收集。
知识以自然语言存在具有另外两个优势:
第一个优势是,即使 LLM 模型发生变化或更新,知识也仍然可以被利用。
第二个优势是,庞大的已积累知识湖可以用作 LLM 的预训练数据集。这可以通过两种方式实现:用于微调,或用于 LLM 自身的预训练。
无论如何,如果能够利用先天学习了知识湖中积累的知识的 LLM,软件开发将变得更加高效。
此外,在软件开发中,存在需求分析、设计、实现、测试、运维和维护等各种流程,并且每个软件领域和平台都存在专业知识。如果能够创建一种机制,从这些角度对大量积累的知识进行分段,也可以组建一个 ALIS 乐团。
因此,ALIS 的基本技术已经就绪。现在的关键是实践性地尝试各种方法——例如知识提取技巧、适当的知识选择、专业知识分段以及如何利用状态记忆——以发现有效的方法。此外,随着复杂性的增加,处理时间和 LLM 使用成本也将上升,因此需要进行优化。
这些试错和优化过程可以通过框架的开发和改进来自适应地进行。
最初,作为用户的开发者可能会通过试错将框架整合到 ALIS 中。然而,即便如此,LLM 本身也可以被用来生成框架思想。
通过将 ALIS 中那些基于从世界接收到的结果和提取的知识来改进或发现框架的框架整合进来,ALIS 本身将自适应地执行试错和优化。
现实世界中的 ALIS
一旦 ALIS 发展到这个阶段,它将不仅能够在软件开发领域学习知识,还能够在更广泛的各个领域学习知识。
与软件开发类似,ALIS 有望将其应用范围扩展到人类使用计算机进行的各种智力活动。
即使在纯粹的智力活动中,ALIS 也对目标世界拥有一种具身人工智能(embodied AI)的性质。
这是因为它能识别自身与世界之间的边界,通过该边界对世界施加作用,并感知从世界接收到的信息。
我们通常所说的“身体”是与世界之间的一个物理可见并局限于一处的边界。
然而,即使边界是不可见的且空间分布的,通过边界进行感知和行动的结构与拥有物理身体是相同的。
从这个意义上说,ALIS 在进行智力活动时,可以被认为是具有虚拟具身人工智能的性质。
而且,一旦 ALIS 发展到即使在新的、未知的世界中也能适当地学习的阶段,ALIS 就有可能作为拥有物理身体的真实具身人工智能的一部分进行整合。
通过这种方式,ALIS 最终将应用于现实世界,并开始从现实世界中学习。