Чи знайомі ви з GitHub, веб-сервісом, який використовувався розробниками програмного забезпечення з відкритим вихідним кодом як платформа для спільної розробки?
Останніми роками його використання як простору для спільної роботи розширилося за межі програмного забезпечення з відкритим вихідним кодом, охопивши розробку корпоративного програмного забезпечення та навіть застосунки, не пов'язані з програмним забезпеченням.
Я також використовую GitHub для керування власними програмами та чернетками статей, які пишу для цього блогу.
У цій статті я досліджу можливість того, що використання GitHub все частіше виходитиме за межі програмного забезпечення, стаючи спільним простором для відкритих знань.
Генерація Wiki-сайтів за допомогою DeepWiki
Багато інструментів розробки програмного забезпечення, що використовують генеративний ШІ, розроблені для допомоги людським програмістам. У цих інструментах люди пишуть програму, а ШІ надає підтримку.
Однак з'являється новий тип інструментів розробки програмного забезпечення, де люди лише дають інструкції, а генеративний ШІ бере на себе завдання створення програми.
Одним із таких новаторських інструментів, що привернув увагу, є Devin. Деякі говорили, що впровадження Devin схоже на додавання ще одного програміста до команди розробників. Хоча досі стверджується, що людським інженерам потрібно надавати детальну підтримку для ефективного використання, такі дані, безсумнівно, будуть зібрані та використані для подальших покращень.
Епоха, коли типова команда розробників програмного забезпечення складається з однієї людини та ШІ-програмістів, таких як Devin, наближається дуже швидко.
Cognition, розробник Devin, також випустила сервіс під назвою DeepWiki.
DeepWiki — це сервіс, який автоматично генерує вікі-сайт для кожного проєкту розробки програмного забезпечення на GitHub. Це означає, що ШІ, як-от Devin, читає та аналізує всі програми та пов'язані документи проєкту, а потім створює всю документацію та проєктні специфікації.
Cognition, як повідомляється, згенерувала вікі-сайти для понад 50 000 найбільших публічних проєктів розробки програмного забезпечення на GitHub, які вільно доступні будь-кому.
Оскільки це публічні проєкти, в цьому немає жодних проблем. Хоча вікі-сайти можна генерувати автоматично, це, мабуть, залучило численні генеративні ШІ, що працювали на повну потужність протягом тривалого періоду, спричинивши значні витрати.
Завдяки тому, що Cognition взяла на себе ці витрати, величезна кількість публічних проєктів отримала вигоду, безкоштовно отримавши документацію та проєктні специфікації.
Якщо статистичні дані покажуть, що ці вікі-сайти корисні для публічних проєктів і мають значний вплив на покращення якості та продуктивності, компанії з розробки програмного забезпечення, ймовірно, приймуть DeepWiki для своїх власних проєктів.
Cognition, мабуть, інвестувала в генерацію вікі-сайтів для численних публічних проєктів, вірячи, що це станеться. Це демонструє впевненість Cognition у DeepWiki. І якщо DeepWiki буде прийнятий, Devin автоматично піде за ним, значно прискорюючи популяризацію ШІ-програмістів.
GitHub як платформа для обміну документами
GitHub став популярним і де-факто стандартним веб-сервісом для спільного використання, спільного редагування та зберігання програм для розробки програмного забезпечення з відкритим вихідним кодом.
В останні роки його надійні функції управління та безпеки для підприємств призвели до його повсюдного використання передовими компаніями з розробки програмного забезпечення.
Як наслідок, GitHub часто асоціюється з веб-сервісом, призначеним насамперед для зберігання та спільного використання програм. Однак насправді він дозволяє обмінюватися, спільно редагувати та зберігати різноманітні документи та матеріали, абсолютно не пов'язані з програмами.
З цієї причини багато людей використовують GitHub для керування документами, які вони хочуть спільно редагувати. Ці документи можуть бути пов'язані з програмним забезпеченням або бути абсолютно непов'язаними.
Крім того, блоги та веб-сайти також є документами, які містять певний тип програми або структуровані програмами для публікації.
Тому нерідко окремі особи та компанії зберігають вміст блогів і веб-сайтів, а також програми для презентацій та автоматичної генерації сайтів, разом як єдиний проєкт GitHub.
Також можна зробити вміст таких блогів і веб-сайтів публічними проєктами GitHub, щоб уможливити спільне редагування.
Останнім часом, окрім використання генеративного ШІ для розробки програмного забезпечення, дедалі частіше вбудовують функціональні можливості генеративного ШІ безпосередньо в програмне забезпечення.
У таких випадках детальні інструкції для генеративного ШІ, які називаються промптами, вбудовуються в програму.
Ці промпти також можна вважати різновидом документів.
Інтелектуальна фабрика
Хоча я інженер-програміст, я також пишу статті для свого блогу.
Хоча я хочу, щоб їх читало багато людей, збільшити кількість читачів досить складно.
Звісно, я міг би подумати про створення статей для привернення уваги або безпосереднє звернення до різних впливових людей за порадами, докладаючи зусиль та винахідливості.
Однак, враховуючи мою особистість та зусилля й стрес, пов'язані з цим, я не в захваті від агресивного просування. Крім того, витрачання часу на таку діяльність відволікало б час від основних аспектів моєї роботи: створення програм, мислення та написання документів.
Тому нещодавно я вирішив спробувати «мультимедійну» або «омніканальну» стратегію, щоб розширити охоплення своїх блог-статей, розгортаючи їх у різних форматах контенту.
Зокрема, це включає переклад японських статей англійською мовою та їх публікацію на англомовному блог-сайті, а також створення презентаційних відео для пояснення статей та їх публікацію на YouTube.
Крім того, окрім публікації на загальних блог-сервісах, я також розглядаю можливість створення власного блог-сайту з індексом моїх минулих статей за категоріями та пов'язуванням пов'язаних статей.
Якби мені доводилося створювати все це вручну кожного разу, коли додається нова стаття, це б суперечило меті. Тому всі завдання, окрім написання початкової японської статті, автоматизуються за допомогою генеративного ШІ. Я називаю це інтелектуальною фабрикою.
Мені потрібно розробити програми для реалізації цієї системи.
Наразі я вже створив програми, які можуть повністю автоматизувати переклад, генерацію презентаційних відео та завантаження на YouTube.
Зараз я перебуваю в процесі створення базових програм для категоризації та пов'язування існуючих блог-статей.
Після того, як це буде завершено, і я створю програму для генерації мого власного блог-сайту та автоматичного розгортання його на веб-сервері, початкова концепція моєї інтелектуальної фабрики буде повністю реалізована.
Інтелектуальна фабрика в ширшому сенсі
Чернетки моїх статей у блозі, які слугують сировиною для цієї Інтелектуальної фабрики, також керуються як проєкти GitHub. Наразі вони не оприлюднюються як приватні проєкти, але я розглядаю можливість зробити їх публічними проєктами в майбутньому разом із програмами Інтелектуальної фабрики.
Крім того, категоризація статей у блозі, зв'язування статей та відеопояснення статей у блозі, які я зараз розробляю, мають ту саму базову концепцію, що й DeepWiki.
Використовуючи генеративний ШІ, оригінальні творчі роботи використовуються як сировина для виробництва різноманітного контенту. Крім того, інформація та знання в цьому контенті можуть бути пов'язані для створення того, що можна назвати базою знань.
Єдина відмінність полягає в тому, чи є сировина програмою чи статтею в блозі. І для DeepWiki та моєї Інтелектуальної фабрики, що працює на основі генеративного ШІ, ця відмінність значною мірою неістотна.
Іншими словами, якщо термін «Інтелектуальна фабрика» інтерпретувати в загальному, ширшому сенсі, не обмежуючись моїми конкретними програмами, DeepWiki також є типом Інтелектуальної фабрики.
Більше того, те, що виробляє Інтелектуальна фабрика, не обмежується перекладеними статтями іншими мовами, презентаційними відео або саморобними блог- та вікі-сайтами.
Вона, ймовірно, буде здатна перетворювати контент у будь-який можливий медіа та формат, такий як короткі відео, твіти, манга та аніме, подкасти та електронні книги.
Крім того, вміст цих медіа та форматів також може бути диверсифікований для різних аудиторій, включаючи ширшу багатомовність, версії для експертів або початківців, а також версії для дорослих або дітей.
Зрештою, навіть генерація індивідуалізованого контенту на вимогу буде можливою.
GitHub як інтелектуальна копальня
Сировина для інтелектуальної фабрики може, в принципі, зберігатися будь-де.
Однак, враховуючи, що GitHub став де-факто стандартом для спільного використання, спільного редагування та зберігання програм для проєктів з відкритим вихідним кодом, а також те, що різні люди — не тільки я — використовують GitHub як місце для зберігання документів, стає очевидним, що GitHub має потенціал стати основним джерелом сировини для інтелектуальних фабрик.
Іншими словами, GitHub стане інтелектуальною копальнею, спільною для людства, що постачатиме сировину для інтелектуальних фабрик.
Термін «спільний для людства» тут перегукується з ідеєю, що проєкти з відкритим вихідним кодом є спільним програмним активом для людства.
Філософія відкритого вихідного коду, яка лежить в основі GitHub, також добре узгоджується з концепцією відкритих документів.
Крім того, може виникнути культура управління інформацією про авторські права та ліцензіями для кожного документа, подібно до програм. Вміст, автоматично згенерований із вихідних документів, може легко отримати ту саму ліцензію або відповідати правилам, передбаченим ліцензією.
З точки зору створення інтелектуальної фабрики, консолідація документів із сировиною на GitHub є ідеальною.
Це пропонує дві переваги: вигоду від ефективності розробки, оскільки це просто вимагає підключення GitHub до інтелектуальної фабрики, і можливість ефективно демонструвати функції та продуктивність власної інтелектуальної фабрики для публічно доступних документів, як це робить DeepWiki.
У майбутньому, коли різні інтелектуальні фабрики будуть розроблені та підключені до GitHub, і все більше людей та компаній керуватимуть документами на GitHub для обробки інтелектуальними фабриками, позиція GitHub як інтелектуальної копальні має міцно утвердитися.
Спільна публічна база знань людства
З GitHub як основою, що слугує інтелектуальною копальнею, та інтелектуальними фабриками, які виробляють широкий спектр контенту та баз знань, ця екосистема в цілому створить публічну базу знань, спільну для людства.
Крім того, це буде динамічна база знань у реальному часі, яка автоматично розширюватиметься зі збільшенням кількості документів, опублікованих на GitHub.
Хоча ця складна, величезна база знань, що містить величезну кількість інформації, буде корисною для людей, повне використання її потенційної цінності, ймовірно, буде для нас складним завданням.
Однак ШІ зможе повною мірою використовувати цю публічно доступну базу знань людства.
Жилки публічних знань
Коли така екосистема буде реалізована, різноманітна публічна інформація природно збиратиметься на GitHub.
Це не обмежуватиметься чернетками особистих блогів чи корпоративних веб-сайтів.
Там також збиратимуться академічні ідеї та дані, такі як препринти, дослідницькі ідеї, експериментальні дані та результати опитувань.
Це привабить не лише тих, хто бажає зробити внесок у знання, ідеї та дані на благо всього людства, а й тих, хто прагне швидко поширити відкриття, щоб отримати визнання.
Навіть вчені та дослідники можуть знайти цінність у тому, щоб їхню роботу перевіряв ШІ на валідність, новизну та вплив, виражав у різних форматах контенту та визнавав за допомогою «вірусного поширення», а не чекати тривалого, трудомісткого процесу рецензування статей.
Крім того, якщо їхня робота таким чином приверне увагу інших дослідників або компаній, що призведе до спільного дослідження або фінансування, це принесе відчутні переваги.
Крім того, відбуватиметься рециркуляція власних знань ШІ.
Хоча генеративний ШІ набуває величезних обсягів знань через попереднє навчання, він не активно навчається, досліджуючи несподівані зв'язки або подібні структури серед цього величезного обсягу знань.
Те саме стосується нових ідей, які виникають у результаті поєднання різних фрагментів знань.
З іншого боку, обговорюючи такі подібності та зв'язки з попередньо навченим генеративним ШІ, він може досить точно оцінити їхню цінність.
Тому, вводячи різні фрагменти знань у генеративний ШІ, порівнюючи їх випадковим чином або вичерпно, можна виявити несподівані подібності та цінні зв'язки.
Звісно, враховуючи величезну кількість комбінацій, охопити все непрактично. Однак, належним чином оптимізувавши та автоматизувавши цей процес, можна буде автоматично видобувати корисні знання з існуючих.
Досягнувши такого автоматичного відкриття знань і зберігаючи знайдені знання на GitHub, цей цикл, здається, може тривати нескінченно.
Таким чином, у цій інтелектуальній копальні існує безліч невідкритих жил, і їх можна буде розкопати.
Висновок
Оскільки спільна база знань людства, як-от GitHub, набуває такої форми, вона, ймовірно, буде використовуватися для попереднього навчання генеративного ШІ та для механізмів пошуку знань, таких як RAG.
У такому сценарії сам GitHub функціонуватиме як масивний мозок. Генеративні ШІ потім ділитимуть цей мозок, поширюючи та розширюючи знання.
Додатково записані там знання будуть не просто фактичними записами, новими даними чи класифікаціями. Вони також включатимуть знання, які діють як каталізатор, сприяючи відкриттю інших знань та нових комбінацій.
Такі знання з каталітичним ефектом я називаю інтелектуальним кристалом, або кристалом знань. Це включає, наприклад, нові рамки мислення.
Коли фреймворки щойно відкриваються або розробляються, і додаються інтелектуальні кристали, їхній каталітичний ефект уможливлює нові комбінації та структурування знань, які раніше були неможливими, що призводить до збільшення нових знань.
Іноді вони можуть містити ще один інтелектуальний кристал, який потім ще більше посилює знання.
Цей тип знань ближчий до математичного дослідження, інженерної розробки або винаходу, а не до наукового відкриття. Отже, це знання, яке зростає суто завдяки думці, а не завдяки новим фактам спостережень, як наукові знання.
І GitHub, як інтелектуальна копальня, разом з незліченною кількістю генеративних ШІ, що його використовують, прискорить зростання таких знань.
Ці швидко відкриті знання, що значно перевищують темпи відкриттів у масштабах людини, будуть надані в легко зрозумілому форматі інтелектуальними фабриками.
Таким чином, знання, які можна досліджувати виключно за допомогою думки, будуть швидко видобуті.