Bent u bekend met GitHub, de webservice die gebruikt wordt als platform voor gezamenlijke ontwikkeling onder open-source softwareontwikkelaars?
De afgelopen jaren is het gebruik ervan als platform voor samenwerking uitgebreid, niet alleen voor open-source software, maar ook voor softwareontwikkeling binnen bedrijven en zelfs voor niet-softwaregerelateerde doeleinden.
Ik gebruik GitHub ook om mijn eigen programma's en de concepten van artikelen die ik voor dit blog schrijf te beheren.
In dit artikel onderzoek ik de mogelijkheid dat het gebruik van GitHub in de toekomst steeds verder zal gaan dan softwareontwikkeling, en een plek zal worden voor open kennisdeling.
Wiki-sitegeneratie door DeepWiki
Veel softwareontwikkelingstools die gebruik maken van generatieve AI zijn ontworpen om menselijke programmeertaken te ondersteunen. Mensen schrijven de programma's, en AI biedt ondersteuning.
Aan de andere kant is er een nieuw type softwareontwikkelingstool in opkomst waarbij mensen alleen instructies geven, en generatieve AI de taak van het creëren van programma's overneemt.
Devin is zo'n tool die een pionier werd en veel aandacht trok. Sommige mensen zeiden zelfs dat het introduceren van Devin was alsof je nog een programmeur aan het ontwikkelteam toevoegde. Hoewel nog steeds wordt gezegd dat menselijke ingenieurs gedetailleerde ondersteuning moeten bieden om het effectief te kunnen gebruiken, zullen dergelijke gegevens zeker worden verzameld en gebruikt voor verbetering.
Het tijdperk waarin softwareontwikkelingsteams bestaan uit één mens en AI-programmeurs zoals Devin als teamleden, staat voor de deur.
Cognition, de ontwikkelaar van Devin, heeft ook een dienst genaamd DeepWiki uitgebracht.
DeepWiki is een dienst die automatisch een wiki-site genereert voor elk softwareontwikkelingsproject op GitHub. Dit betekent dat een AI, vergelijkbaar met Devin, alle programma's en gerelateerde documenten van dat project leest en analyseert, en alle handleidingen en ontwerpdocumenten creëert.
Cognition heeft naar verluidt wiki-sites gemaakt voor meer dan 50.000 grote openbare softwareontwikkelingsprojecten op GitHub die vrij toegankelijk zijn voor iedereen, met behulp van DeepWiki.
Aangezien dit openbare projecten zijn, is er absoluut geen probleem mee om dit te doen. Hoewel wiki-sites automatisch kunnen worden gegenereerd, moet het talloze generatieve AI's hebben vereist om gedurende lange tijd op volle capaciteit te draaien, en de kosten moeten aanzienlijk zijn geweest.
Door deze kosten te dragen, heeft Cognition een groot voordeel geboden aan een groot aantal openbare projecten, waardoor ze gratis uitleg en ontwerpdocumenten konden verkrijgen.
Als statistische gegevens aantonen dat deze wiki-sites nuttig zijn voor elk openbaar project en een significant effect hebben op de verbetering van kwaliteit en productiviteit, dan zullen softwareontwikkelingsbedrijven DeepWiki adopteren voor hun eigen projecten.
Cognition moet hebben geïnvesteerd in het genereren van wiki-sites voor een groot aantal openbare projecten, in de overtuiging dat dit zou kunnen gebeuren. Dit toont Cognition's vertrouwen in DeepWiki aan. En wanneer DeepWiki wordt geadopteerd, zal Devin automatisch volgen, wat de waarschijnlijkheid van wijdverspreide adoptie van AI-programmeurs aanzienlijk vergroot.
GitHub als platform voor het delen van documenten
GitHub is een populaire en de facto standaard webservice geworden voor het delen, gezamenlijk bewerken en opslaan van programma's voor open-source softwareontwikkeling.
De afgelopen jaren zijn de beheer- en beveiligingsfuncties voor bedrijven verbeterd, waardoor het een veelgebruikte tool is geworden in geavanceerde bedrijven die software ontwikkelen.
Hierdoor roept GitHub sterk het beeld op van een webservice voor het opslaan en delen van programma's. In werkelijkheid kan het echter worden gebruikt voor het delen, gezamenlijk bewerken en opslaan van diverse documenten en materialen, die volledig losstaan van programma's.
Daarom gebruiken niet weinig mensen GitHub om documenten te beheren die ze breed gezamenlijk willen bewerken. Dit kunnen documenten zijn die verband houden met software of geheel ongerelateerde documenten.
Bovendien zijn blogs en websites ook documenten die een soort programma bevatten of die gestructureerd en gepubliceerd worden door programma's.
Hierdoor is het niet ongewoon dat individuen en bedrijven de inhoud van blogs en websites, samen met de programma's die ze gemakkelijk leesbaar maken en de programma's voor automatische sitegeneratie, als één project op GitHub opslaan.
Het is ook mogelijk om dergelijke blogs en websites openbare projecten op GitHub te maken voor het gezamenlijk bewerken van hun inhoud.
Bovendien wordt generatieve AI de laatste tijd niet alleen gebruikt voor softwareontwikkeling, maar ook vaak geïntegreerd in software.
In dit geval zijn instructiezinnen, zogenaamde prompts, die gedetailleerde instructies geven aan de generatieve AI, ingebed in de programma's.
Deze prompts kunnen ook als een soort document worden beschouwd.
Intellectuele Fabriek
Hoewel ik softwareontwikkelaar ben, schrijf ik ook artikelen voor mijn blog.
Ik wil graag dat veel mensen ze lezen, maar het is vrij moeilijk om het aantal lezers te vergroten.
Natuurlijk zou men kunnen overwegen om artikelen te creëren om aandacht te trekken of om actief contact op te nemen met invloedrijke personen voor advies, naast andere inspanningen en vindingrijkheid.
Echter, gezien mijn persoonlijkheid en de moeite en stress die ermee gemoeid zijn, ben ik terughoudend om me bezig te houden met agressieve promotie. Bovendien zou het besteden van tijd aan dergelijke activiteiten afbreuk doen aan de kern van mijn werk, namelijk programmeren, ideeën overdenken en deze documenteren.
Daarom heb ik onlangs besloten een strategie te proberen die bekend staat als multimedia of omnichannel, waarbij ik het bereik van mijn blogposts vergroot door ze te ontwikkelen tot verschillende vormen van content.
Concreet omvat dit het vertalen van Japanse artikelen naar het Engels en deze plaatsen op Engelse blogwebsites, en het maken van presentatievideo's om artikelen uit te leggen en deze te publiceren op YouTube.
Bovendien overweeg ik, naast publicatie op algemene blogdiensten, ook het creëren van mijn eigen blogsite die mijn eerdere blogposts categoriseert en opsomt en gerelateerde artikelen koppelt.
Als ik elke keer dat een nieuw artikel wordt geschreven tijd zou besteden aan het maken van deze, zou dat contraproductief zijn. Daarom worden alle taken, behalve het schrijven van het oorspronkelijke Japanse artikel, geautomatiseerd met behulp van generatieve AI. Ik noem dit een intellectuele fabriek.
Ik moet programma's ontwikkelen om dit mechanisme te implementeren.
Momenteel heb ik al programma's gemaakt die vertaling, het genereren van presentatievideo's en het uploaden naar YouTube volledig kunnen automatiseren.
Ik ben nu bezig met het creëren van basisprogramma's voor het categoriseren en koppelen van bestaande blogposts.
Zodra dat voltooid is, en ik een programma creëer om mijn eigen blogsite te genereren en deze automatisch te reflecteren op een webserver, zal het initiële concept van mijn intellectuele fabriek compleet zijn.
Intellectuele fabriek in brede zin
De concepten van mijn blogposts, die dienen als grondstof voor deze intellectuele fabriek, worden ook beheerd als een GitHub-project. Voorlopig zijn ze privé en niet openbaar toegankelijk, maar ik overweeg om ze in de toekomst openbare projecten te maken, samen met de programma's van de intellectuele fabriek.
En de categorisering van blogposts, het koppelen van artikelen en de uitleg van in video omgezette blogposts, die ik momenteel ontwikkel, delen hetzelfde onderliggende concept als DeepWiki.
Met behulp van generatieve AI worden diverse inhoud geproduceerd uit originele creatieve werken als grondstof. Bovendien kan het informatie en kennis daarbinnen met elkaar verbinden, waardoor effectief een kennisbasis wordt gecreëerd.
Het enige verschil is of de grondstof een programma of een blogpost is. En voor DeepWiki en mijn intellectuele fabriek, aangedreven door generatieve AI, is dat verschil bijna zinloos.
Met andere woorden, als de term "intellectuele fabriek" in algemene, bredere zin wordt geïnterpreteerd, niet beperkt tot mijn programma, dan is DeepWiki ook een type intellectuele fabriek.
En wat intellectuele fabrieken produceren, is niet beperkt tot vertaalde artikelen in andere talen, presentatievideo's, zelfgemaakte blogwebsites of wiki-sites.
Ze zullen waarschijnlijk in staat zijn om inhoud om te zetten in elk denkbaar medium en formaat, zoals korte video's, tweets, strips, animaties, podcasts en e-boeken.
Bovendien kan de inhoud binnen deze media en formaten ook worden gediversifieerd om aan de ontvanger te voldoen, zoals bredere meertalige ondersteuning, versies voor experts of beginners, en versies voor volwassenen of kinderen.
Bovendien is zelfs het op aanvraag genereren van aangepaste inhoud realiseerbaar.
GitHub als intellectuele mijn
De grondstoffen voor een intellectuele fabriek kunnen in principe overal worden geplaatst.
Echter, gezien het feit dat GitHub de de facto standaard is geworden voor het delen, gezamenlijk bewerken en opslaan van open-source projectprogramma's, en dat veel mensen, niet alleen ikzelf, GitHub gebruiken als opslaglocatie voor documenten, wordt het duidelijk dat GitHub het potentieel heeft om een primaire bron van grondstoffen te worden voor intellectuele fabrieken.
Met andere woorden, GitHub zal een gedeelde intellectuele mijn voor de mensheid worden, die grondstoffen levert aan intellectuele fabrieken.
De term "gedeeld door de mensheid" hier weerspiegelt het idee dat open-source projecten een gedeeld software-bezit voor de mensheid zijn.
De open-source filosofie die GitHub heeft ondersteund, zal ook goed passen bij het concept van open documenten.
Bovendien zou een cultuur kunnen ontstaan van het beheren van auteursrechteninformatie en licenties voor elk document, vergelijkbaar met programma's. Inhoud die automatisch is gegenereerd uit brondocumenten kan eenvoudig dezelfde licentie krijgen, of voldoen aan de regels die door de licentie zijn vastgelegd.
Vanuit het perspectief van het ontwikkelen van een intellectuele fabriek is het ideaal om de brondocumenten te centraliseren op GitHub.
Dit biedt twee voordelen: verbeterde ontwikkelingsefficiëntie door eenvoudigweg GitHub te verbinden met de intellectuele fabriek, en de mogelijkheid om de functies en prestaties van de eigen intellectuele fabriek effectief aan te tonen met behulp van openbaar beschikbare documenten, vergelijkbaar met DeepWiki.
In de toekomst, naarmate diverse intellectuele fabrieken worden ontwikkeld en koppelbaar worden met GitHub, en naarmate meer mensen en bedrijven documenten op GitHub beheren en deze verwerken met intellectuele fabrieken, zou de positie van GitHub als intellectuele mijn stevig moeten worden gevestigd.
De gedeelde publieke kennisbasis van de mensheid
Met GitHub als centraal punt als intellectuele mijn, en diverse inhoud en kennisbasissen geproduceerd door intellectuele fabrieken, zal dit gehele ecosysteem een publieke kennisbasis creëren die gedeeld wordt door de mensheid.
Bovendien is het een dynamische en realtime kennisbasis die automatisch zal uitbreiden naarmate het aantal documenten dat op GitHub wordt gepubliceerd toeneemt.
Hoewel deze enorme en complexe kennisbasis, die onmetelijke kennis bevat, nuttig zal zijn voor mensen, zal het moeilijk zijn om de potentiële waarde ervan volledig te benutten.
Echter, AI zal in staat zijn om deze publieke kennisbasis, die door de hele mensheid wordt gedeeld, volledig te benutten.
Adernetwerk van publieke kennis
Als een dergelijk ecosysteem wordt gerealiseerd, zal diverse openbare informatie van nature samenkomen op GitHub.
Dit zal niet beperkt blijven tot concepten van persoonlijke blogs of bedrijfswebsites.
Academische inzichten en gegevens, zoals pre-publicatie artikelen en onderzoeksideeën, experimentele gegevens en enquêteresultaten, zullen ook accumuleren.
Dit zal niet alleen diegenen aantrekken die kennis, ideeën en gegevens willen gebruiken ten behoeve van de hele mensheid, maar ook diegenen die hun ontdekkingen snel willen verspreiden en erkenning willen krijgen.
Zelfs voor wetenschappers en onderzoekers zouden velen het waardevol vinden om de validiteit, nieuwheid en impact van hun werk door AI te laten verifiëren, uitgedrukt via diverse content, en erkend te worden op een manier die viraal gaat, zonder te hoeven wachten op het langdurige peer-review proces.
Als hun werk op deze manier de aandacht trekt van andere onderzoekers of bedrijven, wat leidt tot samenwerking of financiering, zijn er bovendien praktische voordelen.
Daarnaast zal er waarschijnlijk een terugstroom zijn van de eigen kennis van AI.
Generatieve AI verwerft enorme hoeveelheden kennis via pre-training, maar het verkent tijdens het leren niet actief onverwachte verbindingen of vergelijkbare structuren tussen die enorme kennis.
Hetzelfde geldt voor nieuwe inzichten die voortkomen uit het verbinden van verschillende stukjes kennis.
Aan de andere kant, bij het verklaren van dergelijke overeenkomsten en verbindingen tijdens gesprekken met een vooraf getrainde generatieve AI, kan het de waarde ervan vrij nauwkeurig inschatten.
Daarom is het door het willekeurig of uitputtend vergelijken en verbinden van verschillende stukjes kennis en deze in een generatieve AI in te voeren, mogelijk om onverwachte overeenkomsten en waardevolle verbindingen te ontdekken.
Omdat er natuurlijk een enorm aantal combinaties is, is het onrealistisch om ze allemaal te behandelen. Echter, door dit proces op passende wijze te stroomlijnen en te automatiseren, wordt het mogelijk om automatisch nuttige kennis uit bestaande kennis te ontdekken.
Door een dergelijke automatische kennisontdekking te realiseren en de ontdekte kennis op GitHub op te slaan, lijkt het mogelijk om deze lus oneindig te herhalen.
Op deze manier bestaan er talloze onontdekte aders van kennis binnen deze intellectuele mijn, en zal het mogelijk worden deze te ontginnen.
Conclusie
Naarmate een de facto standaard, gedeelde menselijke kennisbasis zoals GitHub tot stand komt, zal deze waarschijnlijk worden benut voor het voortrainen van generatieve AI en voor kennisopvraging zoals RAG.
In dat scenario zal GitHub zelf functioneren als een gigantisch cerebrum. En generatieve AI zal dit cerebrum delen, waarbij kennis wordt verspreid en uitgebreid terwijl deze wordt gedeeld.
De kennis die daar aanvullend wordt vastgelegd, omvat niet alleen feiten, nieuwe gegevens of classificaties. Het kan ook katalytische kennis omvatten die de ontdekking van andere kennis of nieuwe combinaties bevordert.
Dergelijke kennis met een katalytisch effect noem ik "intellectuele kristallen" of "kenniskristallen". Dit omvat bijvoorbeeld nieuwe denkkaders.
Wanneer een denkkader nieuw wordt ontdekt of ontwikkeld en een intellectueel kristal wordt toegevoegd, maakt het katalytische effect ervan andere combinaties en structurering van kennis mogelijk dan voorheen, wat leidt tot de groei van nieuwe kennis.
Daartussen kunnen andere kenniskristallen zijn. Dit zal op zijn beurt de kennis verder vergroten.
Dergelijke kennis is geen wetenschappelijke ontdekking, maar iets dat meer lijkt op wiskundig onderzoek, technische ontwikkeling of uitvinding. Daarom is het kennis die puur door gedachten groeit, in plaats van door nieuwe observationele feiten zoals wetenschappelijke kennis.
En GitHub als een intellectuele mijn, samen met talloze generatieve AI's die er gebruik van maken, zal de groei van dergelijke kennis versnellen.
Kennis die achter elkaar wordt ontdekt in een tempo dat ver boven de menselijke ontdekkingsschaal ligt, zal door kennis-fabrieken in een voor ons gemakkelijk te begrijpen vorm worden aangeboden.
Op deze manier zal kennis die puur door gedachten kan worden onderzocht, snel worden ontgonnen.