Перейти к содержимому
Эта статья была переведена с японского с помощью ИИ
Читать на японском
Эта статья находится в общественном достоянии (CC0). Чувствуйте себя свободно использовать ее. CC0 1.0 Universal

GitHub как интеллектуальная шахта

Знакомы ли вы с GitHub — веб-сервисом, который использовался разработчиками открытого программного обеспечения в качестве платформы для совместной разработки?

В последние годы его использование в качестве платформы для совместной работы расширилось за пределы разработки открытого ПО, охватив корпоративную разработку программного обеспечения и даже несвязанные с ПО приложения.

Я также использую GitHub для управления своими программами и черновиками статей, которые я пишу для этого блога.

В этой статье я рассмотрю возможность того, что использование GitHub будет все шире распространяться за пределы программного обеспечения, становясь общим пространством для открытых знаний.

Генерация вики-сайтов с помощью DeepWiki

Многие инструменты разработки программного обеспечения, использующие генеративный ИИ, предназначены для помощи программистам-людям. В таких инструментах люди пишут программу, а ИИ оказывает поддержку.

Однако появляется новый тип инструментов разработки программного обеспечения, где люди дают только инструкции, а генеративный ИИ берет на себя задачу создания программы.

Одним из таких новаторских инструментов, привлекших внимание, является Devin. Некоторые говорят, что внедрение Devin — это как добавление еще одного программиста в команду разработчиков. Хотя по-прежнему считается, что инженеры-люди должны оказывать подробную поддержку для эффективного использования, такие данные, несомненно, будут собираться и использоваться для дальнейших улучшений.

Эпоха, когда типичная команда разработчиков программного обеспечения состоит из одного человека и ИИ-программистов, таких как Devin, в качестве членов команды, быстро приближается.

Компания Cognition, разработчик Devin, также выпустила сервис под названием DeepWiki.

DeepWiki — это сервис, который автоматически генерирует вики-сайт для каждого проекта по разработке программного обеспечения на GitHub. Это означает, что ИИ, такой как Devin, считывает и анализирует все программы и связанные документы проекта, а затем создает всю документацию и проектные спецификации.

Cognition, как сообщается, сгенерировала вики-сайты для более чем 50 000 крупнейших публичных проектов по разработке программного обеспечения на GitHub, которые свободно доступны для всех.

Поскольку это публичные проекты, в этом нет никаких проблем. Хотя вики-сайты могут генерироваться автоматически, для этого, должно быть, потребовалось задействовать многочисленные генеративные ИИ, работающие на полную мощность в течение длительного периода, что повлекло значительные расходы.

Благодаря тому, что Cognition взяла на себя эти расходы, огромное количество публичных проектов получили выгоду, бесплатно получив документацию и проектные спецификации.

Если статистические данные покажут, что эти вики-сайты полезны для публичных проектов и оказывают значительное влияние на улучшение качества и производительности, компании-разработчики программного обеспечения, вероятно, примут DeepWiki для своих собственных проектов.

Cognition, должно быть, инвестировала в генерацию вики-сайтов для многочисленных публичных проектов, полагая, что это произойдет. Это демонстрирует уверенность Cognition в DeepWiki. А если DeepWiki будет принят, Devin автоматически последует за ним, значительно ускоряя популяризацию ИИ-программистов.

GitHub как платформа для обмена документами

GitHub стал популярным и фактически стандартным веб-сервисом для обмена, совместного редактирования и хранения программ в рамках разработки открытого программного обеспечения.

В последние годы его надежные функции управления и безопасности для предприятий привели к его повсеместному использованию передовыми компаниями-разработчиками программного обеспечения.

В результате GitHub часто воспринимается как веб-сервис, в первую очередь предназначенный для хранения и обмена программами. Однако на самом деле он позволяет обмениваться, совместно редактировать и хранить различные документы и материалы, совершенно не связанные с программами.

По этой причине многие люди используют GitHub для управления документами, которые они хотят совместно редактировать в широком масштабе. Эти документы могут быть связаны с программным обеспечением или быть совершенно не связанными с ним.

Более того, блоги и веб-сайты также являются документами, которые содержат своего рода программу или структурируются программами для публикации.

Поэтому для частных лиц и компаний не редкость хранить содержимое блогов и веб-сайтов, наряду с программами для презентации и автоматической генерации сайтов, вместе в виде единого проекта GitHub.

Также возможно сделать такое содержимое блогов и веб-сайтов публичными проектами GitHub, чтобы обеспечить совместное редактирование.

В последнее время, помимо использования генеративного ИИ для разработки программного обеспечения, все чаще встраивают функциональные возможности генеративного ИИ непосредственно в программное обеспечение.

В таких случаях подробные инструкции для генеративного ИИ, называемые промптами, встраиваются в программу.

Эти промпты также можно рассматривать как разновидность документа.

Интеллектуальная фабрика

Хотя я инженер-программист, я также пишу статьи для своего блога.

Я хочу, чтобы их читали многие, но увеличить число читателей довольно сложно.

Конечно, я мог бы рассмотреть возможность создания статей для привлечения внимания или напрямую связаться с различными влиятельными людьми за советом, приложив усилия и проявив изобретательность.

Однако, учитывая мой характер, а также затраты усилий и стресс, я не в восторге от агрессивного продвижения. Более того, трата времени на такую деятельность отвлекла бы меня от основных аспектов моей работы: создания программ, размышлений и написания документов.

Поэтому недавно я решил попробовать «мультимедийную» или «омниканальную» стратегию, чтобы расширить охват своих статей в блоге, размещая их в различных форматах контента.

В частности, это включает перевод японских статей на английский язык и публикацию их на англоязычном блоге, а также создание презентационных видео для объяснения статей и их публикацию на YouTube.

Кроме того, помимо публикации на общих блог-сервисах, я также рассматриваю возможность создания собственного блог-сайта с индексом моих прошлых статей по категориям и связыванием связанных статей.

Если бы я делал все это вручную каждый раз, когда добавляется новая статья, это свело бы на нет весь смысл. Поэтому все задачи, кроме написания первоначальной японской статьи, автоматизированы с использованием генеративного ИИ. Я называю это Интеллектуальной Фабрикой.

Мне нужно разработать программы для реализации этой системы.

В настоящее время я уже создал программы, которые могут полностью автоматизировать перевод, генерацию презентационных видео и загрузку на YouTube.

Сейчас я нахожусь в процессе создания базовых программ для категоризации и связывания существующих статей в блоге.

Как только это будет завершено, и я создам программу для генерации моего пользовательского блог-сайта и автоматического развертывания его на веб-сервере, первоначальная концепция моей Интеллектуальной Фабрики будет полностью реализована.

Интеллектуальная фабрика в более широком смысле

Черновики моих статей в блоге, которые служат сырьем для этой Интеллектуальной Фабрики, также управляются как проекты GitHub. В настоящее время они не раскрываются публично как частные проекты, но в будущем я рассматриваю возможность сделать их публичными проектами вместе с программами Интеллектуальной Фабрики.

Кроме того, категоризация статей в блоге, связывание статей и видео-объяснения статей в блоге, которые я в настоящее время разрабатываю, имеют ту же базовую концепцию, что и DeepWiki.

Используя генеративный ИИ, оригинальные творческие работы используются в качестве сырья для производства различного контента. Кроме того, информация и знания внутри этого контента могут быть связаны для создания того, что можно назвать базой знаний.

Разница лишь в том, является ли сырьем программа или статья в блоге. И для DeepWiki, и для моей Интеллектуальной Фабрики, работающих на основе генеративного ИИ, эта разница в значительной степени несущественна.

Другими словами, если термин «Интеллектуальная Фабрика» интерпретировать в общем, более широком смысле, не ограничиваясь моими конкретными программами, DeepWiki также является разновидностью Интеллектуальной Фабрики.

Более того, то, что производит Интеллектуальная Фабрика, не ограничивается переведенными статьями на других языках, презентационными видеороликами или собственными блогами и вики-сайтами.

Вероятно, она будет способна конвертировать контент во все мыслимые медиа и форматы, такие как короткие видеоролики, твиты, манга и аниме, подкасты и электронные книги.

Кроме того, содержание этих медиа и форматов также может быть диверсифицировано для разных аудиторий, включая более широкую многоязычность, версии для экспертов или новичков, а также версии для взрослых или детей.

В конечном итоге, будет возможна даже генерация индивидуализированного контента по требованию.

GitHub как интеллектуальная шахта

Сырье для Интеллектуальной Фабрики, в принципе, может храниться где угодно.

Однако, учитывая, что GitHub стал де-факто стандартом для обмена, совместного редактирования и хранения программ для проектов с открытым исходным кодом, а также то, что различные люди — не только я — используют GitHub в качестве места для хранения документов, становится очевидным, что GitHub имеет потенциал стать основным источником сырья для Интеллектуальных Фабрик.

Другими словами, GitHub станет Интеллектуальной Шахтой, разделяемой человечеством, поставляющей сырье Интеллектуальным Фабрикам.

Термин «разделяемый человечеством» здесь перекликается с идеей о том, что проекты с открытым исходным кодом являются общим программным активом человечества.

Философия открытого исходного кода, лежащая в основе GitHub, также хорошо впишется в концепцию открытых документов.

Более того, может возникнуть культура управления информацией об авторских правах и лицензиях для каждого документа, подобно программам. Контент, автоматически сгенерированный из исходных документов, может быть легко назначен с той же лицензией или соответствовать правилам, установленным лицензией.

С точки зрения создания Интеллектуальной Фабрики, консолидация документов с исходными материалами на GitHub идеальна.

Это дает два преимущества: выгоду от эффективности разработки, поскольку это просто требует подключения GitHub к Интеллектуальной Фабрике, и возможность эффективно демонстрировать функции и производительность своей собственной Интеллектуальной Фабрики общедоступным документам, подобно DeepWiki.

В будущем, по мере разработки и подключения различных Интеллектуальных Фабрик к GitHub, и по мере того, как все больше частных лиц и компаний будут управлять документами на GitHub для обработки Интеллектуальными Фабриками, положение GitHub как Интеллектуальной Шахты должно прочно укрепиться.

Общая публичная база знаний человечества

С GitHub в основе, служащим Интеллектуальной Шахтой, и Интеллектуальными Фабриками, производящими широкий спектр контента и баз знаний, вся эта экосистема создаст публичную базу знаний, разделяемую человечеством.

Более того, это будет динамичная, обновляемая в реальном времени база знаний, которая автоматически расширяется по мере увеличения числа документов, публикуемых на GitHub.

Хотя эта сложная, огромная база знаний, содержащая обширные объемы информации, будет полезна людям, полное извлечение ее потенциальной ценности, вероятно, будет для нас затруднительным.

Однако ИИ сможет в полной мере использовать эту публично разделяемую базу знаний человечества.

Залежи публичных знаний

Когда такая экосистема будет реализована, разнообразная публичная информация естественным образом сойдется на GitHub.

Это не будет ограничиваться черновиками личных блогов или корпоративных веб-сайтов.

Там также будут собираться академические идеи и данные, такие как препринты статей, исследовательские идеи, экспериментальные данные и результаты опросов.

Это привлечет не только тех, кто желает внести знания, идеи и данные на благо всего человечества, но и тех, кто стремится быстро распространять открытия, чтобы получить признание.

Даже ученые и исследователи могут найти ценность в том, чтобы их работа была проверена на достоверность, новизну и значимость ИИ, выражена в различных форматах контента и признана через «вирусное распространение», вместо того чтобы ждать длительного и трудоемкого процесса рецензирования статей.

В качестве альтернативы, если их работа таким образом привлечет внимание других исследователей или компаний, что приведет к совместным исследованиям или финансированию, это принесет ощутимые выгоды.

Кроме того, произойдет рециркуляция собственных знаний ИИ.

Хотя генеративный ИИ приобретает огромные объемы знаний посредством предварительного обучения, он не учится активно, исследуя неожиданные связи или схожие структуры среди этого огромного массива знаний.

То же самое относится и к новым идеям, возникающим из соединения различных фрагментов знаний.

С другой стороны, при обсуждении таких сходств и связей с предварительно обученным генеративным ИИ он может довольно точно оценить их ценность.

Поэтому, вводя различные фрагменты знаний в генеративный ИИ, сравнивая их случайным образом или исчерпывающе, можно обнаружить неожиданные сходства и ценные связи.

Конечно, учитывая огромное количество комбинаций, охватить все непрактично. Однако, путем соответствующей оптимизации и автоматизации этого процесса, становится возможным автоматически извлекать полезные знания из существующих.

Достигнув такого автоматического обнаружения знаний и сохранив обнаруженные знания на GitHub, этот цикл, по-видимому, мог бы продолжаться бесконечно.

Таким образом, в этой Интеллектуальной Шахте существует множество неоткрытых залежей, и станет возможным их разрабатывать.

Заключение

По мере того как общая база знаний человечества, подобная GitHub, обретает форму де-факто стандарта, она, вероятно, будет использоваться для предварительного обучения генеративного ИИ и для механизмов извлечения знаний, таких как RAG.

В таком сценарии сам GitHub будет функционировать как массивный мозг. Генеративные ИИ будут затем совместно использовать этот мозг, распределяя и расширяя знания.

Дополнительно записываемые там знания будут включать не только фактические записи, новые данные или классификации. Они также будут включать знания, которые действуют как катализатор, способствуя открытию других знаний и новых комбинаций.

Я называю такие знания с каталитическим эффектом Интеллектуальным Кристаллом или кристаллом знаний. Это включает, например, новые концептуальные фреймворки.

Когда фреймворки заново открываются или разрабатываются, и добавляются Интеллектуальные Кристаллы, их каталитический эффект обеспечивает новые комбинации и структурирование знаний, которые ранее были невозможны, что приводит к увеличению новых знаний.

Иногда они могут содержать еще один Интеллектуальный Кристалл, который затем еще больше усиливает знания.

Этот тип знаний ближе к математическому исследованию, инженерной разработке или изобретению, чем к научному открытию. Следовательно, это знания, которые растут чисто через мышление, а не через новые наблюдаемые факты, как научные знания.

И GitHub, как Интеллектуальная Шахта, наряду с бесчисленными генеративными ИИ, использующими его, будет ускорять рост таких знаний.

Эти быстро открытые знания, значительно превышающие темпы человеческого открытия, будут предоставляться Интеллектуальными Фабриками в легко понятном формате.

Таким образом, знания, которые могут быть исследованы чисто через мышление, будут быстро извлекаться.