您是否熟悉 GitHub?这是一个在开源软件开发者中被用作协作开发平台的网络服务。
近年来,它作为协作工作平台的用途已扩展到开源软件之外,包括企业软件开发,甚至是非软件相关的用途。
我也使用 GitHub 来管理我自己的程序以及我为本博客撰写的文章草稿。
在本文中,我将探讨 GitHub 的使用未来可能越来越多地超越软件开发,成为一个开放知识共享的场所。
DeepWiki 生成维基网站
许多使用生成式 AI 的软件开发工具旨在辅助人类编程任务。人类编写程序,AI 提供支持。
另一方面,一种新型的软件开发工具正在兴起,在这种工具中,人类只需给出指令,生成式 AI 便会接管创建程序的任务。
Devin 就是这样一款先行并引起关注的工具。甚至有人说,引入 Devin 就像在开发团队中增加了一名程序员。尽管目前仍有人说,要有效使用 Devin,人类工程师需要提供详细支持,但这些数据肯定会被收集并用于改进。
由一名人类和像 Devin 这样的 AI 程序员作为团队成员的软件开发团队普及的时代即将到来。
Devin 的开发者 Cognition 公司也发布了一项名为 DeepWiki 的服务。
DeepWiki 是一项针对 GitHub 上的每个软件开发项目自动生成维基网站的服务。这意味着,一个类似于 Devin 的 AI 会读取并分析该项目的所有程序和相关文档,并创建所有的手册和设计文档。
据报道,Cognition 使用 DeepWiki 为 GitHub 上超过 50,000 个主要公开软件开发项目创建了维基网站,这些项目可供任何人免费访问。
由于这些是公共项目,这样做完全没有问题。尽管维基网站可以自动生成,但这肯定需要大量的生成式 AI 长期全速运行,而且成本也一定相当可观。
通过承担这些成本,Cognition 为大量的公共项目提供了巨大的益处,使它们能够免费获得解释和设计文档。
如果统计数据显示这些维基网站对每个公共项目都有用,并且对提高质量和生产力有显著影响,那么软件开发公司将为自己的项目采用 DeepWiki。
Cognition 肯定相信这种情况可能发生,因此投资为大量公共项目生成维基网站。这表明了 Cognition 对 DeepWiki 的信心。当 DeepWiki 被采用时,Devin 也会随之自动被采用,这大大增加了 AI 程序员普及的可能性。
作为文档共享平台的 GitHub
GitHub 已成为一个受欢迎且事实上的标准网络服务,用于开源软件开发的程序共享、协同编辑和存储。
近年来,其针对企业的管理和安全功能得到了增强,使其成为开发软件的先进公司中常用的工具。
因此,GitHub 强烈地唤起人们对其作为程序存储和共享网络服务的印象。然而,实际上,它也可以用于共享、协同编辑和存储各种与程序完全无关的文档和材料。
因此,不少人使用 GitHub 来管理他们希望广泛协同编辑的文档。这些文档可以是与软件相关的,也可以是完全无关的。
此外,博客和网站也是一种文档,它们包含某种程序或通过程序进行结构化和发布。
正因为如此,个人和公司将博客和网站的内容,以及使其易于查看的程序和自动生成网站的程序,作为一个单一项目一起存储在 GitHub 上,这种情况并不少见。
也可以将此类博客和网站设为 GitHub 上的公共项目,以协同编辑其内容。
此外,最近,生成式 AI 不仅用于软件开发,还经常集成到软件中。
在这种情况下,称为提示的指令语句,用于向生成式 AI 提供详细指令,会嵌入到程序中。
这些提示也可以被视为一种文档。
智力工厂
尽管我是一名软件开发工程师,但我也为我的博客撰写文章。
虽然我希望更多人阅读它们,但增加读者数量相当困难。
当然,可以考虑创作引人注目的文章,或者主动联系有影响力的人士寻求建议,以及其他努力和独创性。
然而,考虑到我的个性和所涉及的精力和压力,我不愿进行激进的推广。此外,将时间花在这些活动上会分散我工作的核心——编程、构思和记录。
因此,我最近决定尝试一种称为多媒体或全渠道的策略,通过将我的博客文章开发成各种形式的内容来扩大其影响力。
具体来说,这包括将日语文章翻译成英语并发布到英语博客网站上,以及制作演示视频来解释文章并发布到 YouTube 上。
此外,除了在通用博客服务上发布之外,我还考虑创建自己的博客网站,列出和分类我过去的博客文章,并链接相关文章。
如果每写一篇新文章都花时间来制作这些内容,那将是事与伦比。因此,除了撰写最初的日语文章之外的所有任务都使用生成式 AI 自动化。我称之为智力工厂。
我需要开发程序来实现这个机制。
目前,我已经创建了可以完全自动化翻译、演示视频生成和上传到 YouTube 的程序。
我目前正在创建用于对现有博客文章进行分类和链接的基础程序。
一旦完成,并且我创建一个程序来生成我自己的博客网站并自动将其反映到网络服务器上,我的智力工厂的初始概念将完成。
广义的智力工厂
我的博客文章草稿,作为这个智力工厂的原材料,也作为 GitHub 项目进行管理。目前,它们是私有的,不公开,但我正在考虑将来将它们与智力工厂程序一起公开。
我目前正在开发的博客文章分类、文章链接以及视频转换后的博客文章的解释,与 DeepWiki 共享相同的基本概念。
使用生成式 AI,以原创创意作品为原材料,生产各种内容。此外,它还可以连接其中的信息和知识,有效地创建一个知识库。
唯一的区别是原材料是程序还是博客文章。对于 DeepWiki 和我由生成式 AI 驱动的智力工厂来说,这种差异几乎毫无意义。
换句话说,如果“智力工厂”一词在一般、更广泛的意义上解释,而不限于我的程序,那么 DeepWiki 也是一种智力工厂。
智力工厂生产的产品不仅限于其他语言的翻译文章、演示视频、自制博客网站或维基网站。
它们可能能够将内容转换为所有可以想象的媒体和格式,例如短视频、推文、漫画、动画、播客和电子书。
此外,这些媒体和格式中的内容也可以多样化以适应接收者,例如更广泛的多语言支持、专家版或初学者版,以及成人版或儿童版。
而且,甚至可以实现按需生成定制内容。
作为智力矿山的 GitHub
智力工厂的原材料从根本上来说可以位于任何地方。
然而,考虑到 GitHub 已成为开源项目程序共享、协同编辑和存储的事实标准,并且许多人(不只我)将 GitHub 用作文档存储位置,显而易见,GitHub 有潜力成为智力工厂原材料的主要来源。
换句话说,GitHub 将成为人类共享的智力矿山,为智力工厂提供原材料。
这里“人类共享”一词呼应了开源项目是人类共享的软件资产这一理念。
支持 GitHub 的开源哲学也将很好地契合开放文档的概念。
此外,一种类似于程序管理版权信息和许可证的文档管理文化可能会出现。从源文档自动生成的内容可以轻松地被赋予相同的许可证,或者遵守许可证规定的规则。
从开发智力工厂的角度来看,将原材料文档集中在 GitHub 上是理想的。
这提供了两个好处:通过简单地将 GitHub 与智力工厂连接来提高开发效率;以及能够利用公开可用的文档有效展示自己的智力工厂的功能和性能,类似于 DeepWiki。
未来,随着各种智力工厂的开发并与 GitHub 连接,以及越来越多的人和公司在 GitHub 上管理文档并用智力工厂处理它们,GitHub 作为智力矿山的地位应该会牢固确立。
人类共享的公共知识库
以 GitHub 为中心,作为智力矿山,以及由智力工厂生产的各种内容和知识库,整个生态系统将创建一个人类共享的公共知识库。
此外,它是一个动态的、实时的知识库,会随着 GitHub 上发布的文档数量的增加而自动扩展。
尽管这个庞大而复杂的知识库蕴含着巨大的知识,对人类将很有用,但要充分挖掘其潜在价值将是困难的。
然而,人工智能将能够充分利用这个全人类共享的公共知识库。
公共知识的矿脉
如果这样的生态系统得以实现,各种公共信息将自然而然地汇聚到 GitHub 上。
这不仅限于个人博客草稿或公司网站。
学术见解和数据,例如预发表论文和研究思路、实验数据和调查结果,也将随之积累。
这将吸引那些不仅希望利用知识、想法和数据造福全人类的人,还包括那些希望迅速传播他们的发现并获得认可的人。
即使对于学者和研究人员来说,许多人也会觉得有价值:他们的工作无需等待漫长的同行评审过程,即可由 AI 验证其有效性、新颖性和影响力,并通过各种内容形式表达出来,并以病毒式传播的方式获得认可。
或者,如果他们的工作以这种方式引起其他研究人员或公司的关注,从而促成合作研究或获得资金,那也具有实际利益。
此外,AI 自身的知识很可能也会回流。
生成式 AI 通过预训练获得大量知识,但在学习过程中,它并不会主动探索这些大量知识之间意想不到的连接或相似的结构。
对于连接不同知识所产生的新见解也是如此。
另一方面,在与预训练的生成式 AI 对话时解释这些相似之处和连接时,它能够相当准确地评估它们的价值。
因此,通过随机或穷尽地比较和连接各种知识并将其输入生成式 AI,就有可能发现意想不到的相似性和有价值的连接。
当然,由于组合数量巨大,涵盖所有组合是不现实的。但是,通过适当地精简和自动化此过程,就可以从现有知识中自动发现有用的知识。
通过实现这种自动知识发现并将发现的知识存储在 GitHub 上,似乎可以无限期地重复这个循环。
这样一来,在这个智力矿山中存在着大量未被发现的知识矿脉,并且将有可能对其进行挖掘。
结论
随着像 GitHub 这样事实上的标准、人类共享的知识库的建立,它很可能被用于生成式 AI 的预训练以及像 RAG 这样的知识检索。
在这种情景下,GitHub 本身将像一个巨大的大脑。而生成式 AI 将共享这个大脑,在共享的同时分发和扩展知识。
在那里额外记录的知识将不仅仅包括事实记录、新数据或分类。它还可能包括促进发现其他知识或新组合的催化性知识。
我将这种具有催化作用的知识称为“智力结晶”或“知识结晶”。这其中包括,例如,新的思维框架。
当一个框架被新发现或开发并添加一个智力结晶时,其催化作用使得知识能够以与以前不同的方式进行组合和构建,从而导致新知识的增长。
在这些之中,可能还存在其他的知识结晶。这反过来又会进一步增加知识。
这种知识并非科学发现,而更接近于数学探究、工程开发或发明。因此,它是纯粹通过思考而非像科学知识那样通过新的观察事实而增长的知识。
作为智力矿山的 GitHub,连同无数利用它的生成式 AI,将加速这类知识的增长。
以远超人类发现速度不断发现的知识,将由知识工厂以我们易于理解的形式提供。
通过这种方式,纯粹通过思考即可探索的知识将得到迅速挖掘。