您是否熟悉GitHub这个被开源软件开发者用作协同开发平台的网络服务?
近年来,它作为协同工作空间的应用已超越开源软件,扩展到企业软件开发,甚至包括与软件无关的应用。
我也使用GitHub来管理我的程序和我的博客文章草稿。
在本文中,我将探讨GitHub的应用范围将日益超越软件领域,成为一个开放知识共享空间的潜力。
DeepWiki生成Wiki网站
许多使用生成式AI的软件开发工具旨在辅助人类程序员。在这些工具中,人类编写程序,AI提供支持。
然而,一种新型的软件开发工具正在兴起,其中人类只需发出指令,生成式AI便承担创建程序的任务。
Devin便是其中一个备受关注的开创性工具。有人说,引入Devin就像开发团队中增加了一名程序员。尽管目前仍有说法认为,人类工程师需要提供详细支持才能有效利用,但无疑会收集这些数据并用于进一步改进。
一个典型的软件开发团队由一名人类成员和像Devin这样的AI程序员共同组成,这样的时代正迅速到来。
Devin的开发者Cognition公司也发布了一项名为DeepWiki的服务。
DeepWiki是一项能为GitHub上的每个软件开发项目自动生成Wiki网站的服务。这意味着像Devin这样的AI会读取和分析项目的所有程序及相关文档,然后创建所有的说明文档和设计规范。
据报道,Cognition公司已为GitHub上超过五万个顶级主要公共软件开发项目生成了Wiki网站,这些项目可供任何人免费访问。
由于这些是公共项目,这样做完全没有问题。尽管Wiki网站可以自动生成,但这必然涉及大量生成式AI长时间全速运行,产生的费用相当可观。
通过Cognition承担这些费用,大量的公共项目免费获得了文档和设计规范,从而受益。
如果统计数据显示这些Wiki网站对公共项目有用,并对质量和生产力提升产生显著影响,那么软件开发公司很可能会在自己的项目中采用DeepWiki。
Cognition公司一定是在相信这一点会发生的情况下,投入巨资为众多公共项目生成了Wiki网站。这体现了Cognition对DeepWiki的信心。如果DeepWiki被采用,Devin也会随之普及,从而极大地加速AI程序员的推广。
作为文档共享平台的GitHub
GitHub已成为一个受欢迎且事实标准的网络服务,用于开源软件开发的项目程序共享、协同编辑和存储。
近年来,其针对企业提供的强大管理和安全功能,使其在先进的软件开发公司中也得到了普遍应用。
因此,GitHub通常给人一种主要用于程序存储和共享的网络服务的印象。然而,实际上,它允许共享、协同编辑和存储各种与程序完全无关的文档和资料。
正因如此,许多人使用GitHub来管理他们希望广泛协同编辑的文档。这些文档既可以与软件相关,也可以完全不相关。
此外,博客和网站也是一种包含程序或通过程序结构化以供发布的文档。
因此,个人和公司将博客和网站内容,以及用于展示和自动生成网站的程序,作为单个GitHub项目一起存储,这种情况并不少见。
将这些博客和网站内容设置为公共GitHub项目以实现协同编辑也是可行的。
最近,除了将生成式AI用于软件开发外,将生成式AI功能直接嵌入到软件中也变得越来越普遍。
在这种情况下,用于向生成式AI提供详细指令的提示词(prompts)会嵌入到程序中。
这些提示词也可以被视为一种文档。
智力工厂
尽管我是一名软件工程师,但我也为我的博客撰写文章。
虽然我希望更多人阅读我的文章,但增加读者数量相当具有挑战性。
当然,我可以考虑撰写吸引眼球的文章,或者直接联系各种有影响力的人寻求建议,投入精力和巧思。
然而,考虑到我的个性和所涉及的精力与压力,我对积极推广并不热衷。此外,将时间花费在这些活动上,会分散我工作中核心部分的精力:即编写程序、思考问题和撰写文档。
因此,我最近决定尝试一种“多媒体”或“全渠道”策略,通过将我的博客文章部署到各种内容形式,以扩大其传播范围。
具体来说,这包括将日语文章翻译成英文并发布到英文博客网站,以及制作解释文章的演示视频并发布到YouTube上。
此外,除了在普通博客服务上发布之外,我还考虑创建自己的博客网站,该网站包含我过去文章的分类索引和相关文章的链接。
如果每增加一篇新文章都需要我手动完成所有这些工作,那将本末倒置。因此,除了撰写最初的日文文章之外,所有任务都将通过生成式AI实现自动化。我称之为“智力工厂”。
我需要开发程序来实现这个系统。
目前,我已创建了能够完全自动化翻译、演示视频生成和YouTube上传的程序。
现在,我正在创建对现有博客文章进行分类和链接的基础程序。
一旦完成,并且我创建了一个程序来生成我的自定义博客网站并自动部署到网络服务器,我的智力工厂的最初构想就将完全实现。
广义上的智力工厂
我博客文章的草稿,作为这个智力工厂的原材料,也作为GitHub项目进行管理。目前,它们作为私有项目未对外公开,但我正在考虑将来与智力工厂的程序一起将其公开。
此外,我目前正在开发的博客文章分类、文章链接以及视频解释,都与DeepWiki有着相同的底层概念。
利用生成式AI,将原创创意作品作为原材料,生产出各种内容。此外,这些内容中的信息和知识可以相互连接,从而创建一个所谓的知识库。
唯一的区别在于原材料是程序还是博客文章。而对于由生成式AI驱动的DeepWiki和我的智力工厂来说,这种区别在很大程度上微不足道。
换句话说,如果“智力工厂”一词被解释为一种普遍的、广义的概念,而不局限于我的特定程序,那么DeepWiki也属于一种智力工厂。
而且,智力工厂生产的产品不限于翻译成其他语言的文章、演示视频,或自建博客和维基网站。
它很可能能够将内容转换为所有可想象的媒介和格式,例如短视频、推文、漫画和动画、播客以及电子书。
此外,这些媒介和格式中的内容也可以多样化,以适应各种受众,包括更广泛的多语言化、针对专家或初学者的版本,以及针对成人或儿童的版本。
最终,甚至可以实现按需生成定制内容。
作为智力矿山的GitHub
智力工厂的原材料原则上可以存储在任何地方。
然而,考虑到GitHub已成为开源项目程序共享、协同编辑和存储的事实标准,并且各种人士(不仅仅是我)都将GitHub用作文档存储地点,因此显而易见,GitHub有潜力成为智力工厂原材料的主要来源。
换句话说,GitHub将成为人类共享的智力矿山,为智力工厂提供原材料。
这里使用“人类共享”一词,呼应了开源项目是人类共享软件资产的理念。
支撑GitHub的开源哲学也将与开放文档的概念良好契合。
此外,一种类似于程序管理版权信息和许可证的文档管理文化也可能应运而生。从源文档自动生成的内容可以轻松地被赋予相同的许可证,或者遵守许可证规定的规则。
从创建智力工厂的角度来看,将原材料文档整合到GitHub上是理想的。
这提供了两个优势:一是开发效率的提升,因为它只需将GitHub连接到智力工厂;二是能够有效地向公共文档展示自身智力工厂的功能和性能,就像DeepWiki一样。
未来,随着各种智力工厂的开发并连接到GitHub,以及越来越多的个人和公司通过GitHub管理文档以供智力工厂处理,GitHub作为智力矿山的地位必将牢固确立。
人类共享的公共知识库
以GitHub为核心,作为智力矿山,智力工厂生产各种内容和知识库,整个生态系统将共同构建一个由人类共享的公共知识库。
此外,这将是一个动态的、实时的知识库,随着GitHub上发布的文档数量增加而自动扩展。
尽管这个包含海量知识的复杂庞大知识库对人类有益,但要充分挖掘其潜在价值对我们来说可能具有挑战性。
然而,AI将能够充分利用这个人类共享的公共知识库。
公共知识的矿脉
当这样的生态系统实现后,各种公共信息将自然而然地汇聚到GitHub上。
这不仅限于个人博客草稿或企业网站。
学术见解和数据,如预印本论文、研究思路、实验数据和调查结果,也将汇集于此。
这不仅会吸引那些希望为全人类福祉贡献知识、思想和数据的人,也会吸引那些寻求快速传播发现以获得认可的人。
即使是学者和研究人员,也可能发现其作品通过AI验证其有效性、新颖性和影响力,并以各种内容形式表达,通过“病毒式传播”获得认可,而不是等待漫长耗时的论文同行评审过程,这更有价值。
或者,如果他们的工作以这种方式引起其他研究人员或公司的关注,从而促成合作研究或资金支持,那也将带来实实在在的好处。
此外,AI自身的知识也将进行再循环。
尽管生成式AI通过预训练获得了海量知识,但它并未积极地通过探索这些庞大知识体系中意想不到的连接或相似结构来学习。
连接不同知识碎片所产生的新见解亦是如此。
另一方面,当与预训练的生成式AI讨论这些相似之处和连接时,它能相当准确地评估其价值。
因此,通过向生成式AI输入各种知识,并随机或穷尽式地进行比较,就有可能发现意想不到的相似之处和有价值的连接。
当然,鉴于组合数量巨大,涵盖所有内容是不切实际的。但是,通过适当的精简和自动化此过程,就有可能从现有知识中自动发掘有用知识。
通过实现这种知识的自动发现并将发现的知识存储在GitHub上,这个循环似乎可以无限期地持续下去。
因此,在这个智力矿山中,存在着无数未被发现的矿脉,并且挖掘它们将成为可能。
结论
当GitHub这样的人类共享知识库作为事实标准形成时,它很可能被用于生成式AI的预训练和RAG等知识检索机制。
在这种情景下,GitHub本身将像一个巨大的大脑。生成式AI将共享这个大脑,分发和扩展知识。
其中额外记录的知识将不仅仅是事实记录、新数据或分类。它还将包括那些作为催化剂的知识,促进其他知识的发现和新的组合。
我将这种具有催化作用的知识称为“智力晶体”或“知识结晶”。这包括,例如,新的思维框架。
当新的框架被发现或开发,并添加了智力晶体时,它们的催化作用将使以前不可能的知识组合和结构化成为可能,从而导致新知识的增加。
有时,这些晶体中可能还包含另一个智力晶体,它将进一步放大知识。
这种知识更接近于数学探究、工程开发或发明,而非科学发现。因此,它纯粹通过思考而增长,而不是通过像科学知识那样的新的观测事实。
GitHub作为一座智力矿山,与无数利用它的生成式AI一起,将加速此类知识的增长。
这些快速发现的知识,其速度远远超过人类发现的节奏,将由智力工厂以易于理解的格式提供。
通过这种方式,纯粹通过思考即可探索的知识将被迅速发掘。