Naar inhoud springen
Dit artikel is vanuit het Japans vertaald met behulp van AI
Lees in het Japans
Dit artikel is in het Publiek Domein (CC0). Voel je vrij om het vrij te gebruiken. CC0 1.0 Universal

GitHub als intellectuele mijn

Bent u bekend met GitHub, de webdienst die door open-source softwareontwikkelaars wordt gebruikt als samenwerkingsplatform voor ontwikkeling?

De afgelopen jaren is het gebruik ervan als samenwerkingsruimte uitgebreid, van open-source software tot softwareontwikkeling binnen bedrijven en zelfs toepassingen die niet softwaregerelateerd zijn.

Ik gebruik GitHub ook om mijn eigen programma's en de concepten van de artikelen die ik voor deze blog schrijf te beheren.

In dit artikel onderzoek ik de mogelijkheid dat het gebruik van GitHub zich steeds meer zal uitbreiden buiten software, en een gedeelde ruimte voor open kennis zal worden.

Wiki-site Generatie door DeepWiki

Veel softwareontwikkelingstools die generatieve AI gebruiken, zijn ontworpen om menselijke programmeurs te assisteren. Bij deze tools schrijven mensen het programma en biedt AI ondersteuning.

Er ontstaat echter een nieuw type softwareontwikkelingstool waarbij mensen alleen instructies geven en generatieve AI de taak op zich neemt om het programma te creëren.

Een zo'n baanbrekend hulpmiddel dat de aandacht trok, is Devin. Sommigen hebben gezegd dat de introductie van Devin zoiets is als het toevoegen van een extra programmeur aan het ontwikkelteam. Hoewel nog steeds wordt gezegd dat menselijke engineers gedetailleerde ondersteuning moeten bieden voor effectief gebruik, zullen dergelijke gegevens ongetwijfeld worden verzameld en gebruikt voor verdere verbeteringen.

Het tijdperk waarin een typisch softwareontwikkelingsteam bestaat uit één mens en AI-programmeurs zoals Devin als teamleden, nadert snel.

Cognition, de ontwikkelaar van Devin, heeft ook een dienst genaamd DeepWiki gelanceerd.

DeepWiki is een dienst die automatisch een wiki-site genereert voor elk softwareontwikkelingsproject op GitHub. Dit betekent dat een AI zoals Devin alle programma's en gerelateerde documenten van een project leest en analyseert, en vervolgens alle documentatie en ontwerpspecificaties creëert.

Cognition heeft naar verluidt wiki-sites gegenereerd voor meer dan 50.000 van de belangrijkste openbare softwareontwikkelingsprojecten op GitHub, die vrij toegankelijk zijn voor iedereen.

Aangezien dit openbare projecten zijn, is dit geen enkel probleem. Hoewel wiki-sites automatisch kunnen worden gegenereerd, moet dit wel talloze generatieve AI's gedurende een langere periode op volle capaciteit hebben ingeschakeld, wat aanzienlijke kosten met zich meebracht.

Doordat Cognition deze kosten droeg, profiteerde een groot aantal openbare projecten door gratis documentatie en ontwerpspecificaties te verkrijgen.

Als statistische gegevens aantonen dat deze wiki-sites nuttig zijn voor openbare projecten en een aanzienlijke impact hebben op kwaliteits- en productiviteitsverbetering, zullen softwareontwikkelingsbedrijven DeepWiki waarschijnlijk adopteren voor hun eigen projecten.

Cognition moet hebben geïnvesteerd in het genereren van wiki-sites voor talloze openbare projecten, in de overtuiging dat dit zou gebeuren. Dit toont Cognition's vertrouwen in DeepWiki. En als DeepWiki wordt geadopteerd, zal Devin automatisch volgen, wat de popularisering van AI-programmeurs aanzienlijk zal versnellen.

GitHub als Platform voor Documentdeling

GitHub is een populaire en de facto standaard webdienst geworden voor het delen, gezamenlijk bewerken en opslaan van programma's voor open-source softwareontwikkeling.

De afgelopen jaren hebben de robuuste beheer- en beveiligingsfuncties voor bedrijven geleid tot het algemeen gebruik ervan door geavanceerde softwareontwikkelingsbedrijven.

Als gevolg hiervan heeft GitHub vaak het imago van een webdienst die voornamelijk dient voor het opslaan en delen van programma's. In werkelijkheid maakt het echter het delen, gezamenlijk bewerken en opslaan van diverse documenten en materialen mogelijk, die volledig ongerelateerd kunnen zijn aan programma's.

Om deze reden gebruiken veel mensen GitHub om documenten te beheren die ze breed gezamenlijk willen bewerken. Deze documenten kunnen gerelateerd zijn aan software of geheel ongerelateerd.

Bovendien zijn blogs en websites ook documenten die een type programma bevatten of die door programma's worden gestructureerd om gepubliceerd te worden.

Daarom is het niet ongebruikelijk dat individuen en bedrijven blog- en website-inhoud, samen met programma's voor presentatie en automatische sitegeneratie, samen opslaan als één GitHub-project.

Het is ook mogelijk om dergelijke blog- en website-inhoud tot openbare GitHub-projecten te maken om gezamenlijk bewerken mogelijk te maken.

Recentelijk is het, naast het gebruik van generatieve AI voor softwareontwikkeling, steeds gebruikelijker om functionaliteiten van generatieve AI direct in software in te bedden.

In dergelijke gevallen worden gedetailleerde instructies voor de generatieve AI, prompts genaamd, in het programma ingebed.

Deze prompts kunnen ook als een type document worden beschouwd.

Intellectuele Fabriek

Hoewel ik software-engineer ben, schrijf ik ook artikelen voor mijn blog.

Hoewel ik graag wil dat veel mensen ze lezen, is het vrij lastig om het aantal lezers te vergroten.

Natuurlijk zou ik kunnen overwegen om artikelen te creëren om aandacht te trekken of direct contact op te nemen met invloedrijke mensen voor advies, door moeite en vindingrijkheid te tonen.

Echter, gezien mijn persoonlijkheid en de inspanning en stress die hiermee gepaard gaan, ben ik niet enthousiast over agressieve promotie. Bovendien zou tijd besteden aan dergelijke activiteiten tijd wegnemen van de kernaspecten van mijn werk: het creëren van programma's, nadenken en het schrijven van documenten.

Daarom heb ik onlangs besloten een "multimedia" of "omnichannel" strategie te proberen om het bereik van mijn blogartikelen te vergroten door ze in verschillende contentformaten te verspreiden.

Concreet houdt dit in dat ik Japanse artikelen vertaal naar het Engels en deze op een Engelse blogsite plaats, en presentatievideo's maak om artikelen uit te leggen en deze op YouTube publiceer.

Bovendien overweeg ik, naast publicatie op algemene blogdiensten, ook het creëren van mijn eigen blogsite met een index van mijn eerdere artikelen per categorie en het koppelen van gerelateerde artikelen.

Als ik dit allemaal handmatig zou moeten doen telkens wanneer een nieuw artikel wordt toegevoegd, zou dit het doel voorbijschieten. Daarom worden alle taken, behalve het schrijven van het oorspronkelijke Japanse artikel, geautomatiseerd met behulp van generatieve AI. Dit noem ik een Intellectuele Fabriek.

Ik moet programma's ontwikkelen om dit systeem te realiseren.

Momenteel heb ik al programma's gemaakt die vertaling, het genereren van presentatievideo's en uploads naar YouTube volledig kunnen automatiseren.

Nu ben ik bezig met het creëren van basisprogramma's voor het categoriseren en koppelen van bestaande blogartikelen.

Zodra dat is voltooid en ik een programma heb gemaakt om mijn aangepaste blogsite te genereren en deze automatisch naar een webserver te implementeren, zal het initiële concept van mijn Intellectuele Fabriek volledig zijn gerealiseerd.

Intellectuele Fabriek in bredere zin

De concepten van mijn blogartikelen, die dienen als grondstoffen voor deze Intellectuele Fabriek, worden ook beheerd als GitHub-projecten. Momenteel zijn ze niet openbaar, maar als private projecten, maar ik overweeg om ze in de toekomst openbare projecten te maken, samen met de programma's van de Intellectuele Fabriek.

Bovendien delen de categorisering van blogartikelen, het koppelen van artikelen en de video-uitleg van blogartikelen die ik momenteel ontwikkel, hetzelfde onderliggende concept als DeepWiki.

Met behulp van generatieve AI worden originele creatieve werken gebruikt als grondstoffen om diverse content te produceren. Daarnaast kunnen informatie en kennis binnen deze content met elkaar worden verbonden om wat een kennisbank kan worden genoemd, te creëren.

Het enige verschil is of de grondstof een programma of een blogartikel is. En voor DeepWiki en mijn Intellectuele Fabriek, aangedreven door generatieve AI, is dit verschil grotendeels onbeduidend.

Met andere woorden, als de term "Intellectuele Fabriek" in een algemene, bredere zin wordt geïnterpreteerd, niet beperkt tot mijn specifieke programma's, dan is DeepWiki ook een type Intellectuele Fabriek.

Bovendien is wat een Intellectuele Fabriek produceert niet beperkt tot vertaalde artikelen in andere talen, presentatievideo's, of zelfgemaakte blog- en wiki-sites.

Het zal waarschijnlijk in staat zijn om content om te zetten naar elk denkbaar medium en formaat, zoals korte video's, tweets, manga en anime, podcasts en e-boeken.

Verder kan de inhoud binnen deze media en formaten ook gediversifieerd worden om aan verschillende doelgroepen te voldoen, inclusief bredere meertaligheid, versies voor experts of beginners, en versies voor volwassenen of kinderen.

Uiteindelijk zal zelfs de on-demand generatie van op maat gemaakte content mogelijk zijn.

GitHub als Intellectuele Mijn

De grondstoffen voor een Intellectuele Fabriek kunnen in principe overal worden opgeslagen.

Echter, gezien het feit dat GitHub de de facto standaard is geworden voor het delen, gezamenlijk bewerken en opslaan van programma's voor open-source projecten, en dat diverse mensen – niet alleen ikzelf – GitHub gebruiken als opslaglocatie voor documenten, wordt het duidelijk dat GitHub het potentieel heeft om de primaire bron van grondstoffen te worden voor Intellectuele Fabrieken.

Met andere woorden, GitHub zal een door de mensheid gedeelde Intellectuele Mijn worden, die grondstoffen levert aan Intellectuele Fabrieken.

De term "gedeeld door de mensheid" weerspiegelt hier het idee dat open-source projecten een gedeelde softwarebron zijn voor de mensheid.

De open-source filosofie die GitHub heeft ondersteund, zal ook goed passen bij het concept van open documenten.

Bovendien zou een cultuur kunnen ontstaan van het beheren van auteursrechtinformatie en licenties voor elk document, vergelijkbaar met programma's. Inhoud die automatisch is gegenereerd uit brondocumenten kan eenvoudig dezelfde licentie krijgen of voldoen aan de regels die door de licentie zijn vastgelegd.

Vanuit het perspectief van het creëren van een Intellectuele Fabriek is de consolidatie van grondstoffendocumenten op GitHub ideaal.

Dit biedt twee voordelen: het voordeel van ontwikkelingsefficiëntie, aangezien het eenvoudigweg vereist dat GitHub wordt verbonden met de Intellectuele Fabriek, en de mogelijkheid om de functies en prestaties van de eigen Intellectuele Fabriek effectief aan te tonen aan openbaar beschikbare documenten, veel zoals DeepWiki.

In de toekomst, naarmate diverse Intellectuele Fabrieken worden ontwikkeld en verbonden met GitHub, en meer individuen en bedrijven documenten op GitHub beheren voor verwerking door Intellectuele Fabrieken, zal de positie van GitHub als Intellectuele Mijn stevig gevestigd moeten worden.

De Publieke Kennisbank Gedeeld door de Mensheid

Met GitHub als kern, dienend als Intellectuele Mijn, en Intellectuele Fabrieken die een breed scala aan inhoud en kennisbanken produceren, zal dit gehele ecosysteem een publieke kennisbank creëren die door de mensheid wordt gedeeld.

Bovendien zal dit een dynamische, realtime kennisbank zijn die automatisch uitbreidt naarmate het aantal op GitHub gepubliceerde documenten toeneemt.

Hoewel deze complexe, enorme kennisbank, die enorme hoeveelheden kennis bevat, nuttig zal zijn voor mensen, zal het voor ons waarschijnlijk een uitdaging zijn om de potentiële waarde ervan volledig te benutten.

AI zal echter in staat zijn om deze openbaar gedeelde kennisbank van de mensheid volledig te benutten.

Aders van Publieke Kennis

Wanneer een dergelijk ecosysteem wordt gerealiseerd, zal diverse openbare informatie van nature samenkomen op GitHub.

Dit zal niet beperkt blijven tot concepten van persoonlijke blogs of bedrijfswebsites.

Academische inzichten en gegevens, zoals pre-print papers, onderzoeksideeën, experimentele gegevens en enquêteresultaten, zullen daar ook samenkomen.

Dit zal niet alleen diegenen aantrekken die kennis, ideeën en gegevens willen bijdragen ten behoeve van de hele mensheid, maar ook diegenen die ontdekkingen snel willen verspreiden om erkenning te krijgen.

Zelfs academici en onderzoekers kunnen waarde vinden in het laten valideren van hun werk op geldigheid, nieuwheid en impact door AI, uitgedrukt in verschillende contentformaten, en erkend door "viraal te gaan", in plaats van te wachten op het langdurige, tijdrovende peer-review proces voor papers.

Als hun werk op deze manier de aandacht trekt van andere onderzoekers of bedrijven, wat leidt tot samenwerkingsonderzoek of financiering, zijn er bovendien tastbare voordelen.

Verder zal er een recirculatie zijn van de eigen kennis van AI.

Hoewel generatieve AI enorme hoeveelheden kennis verwerft door pre-training, leert het niet actief door onverwachte verbanden of vergelijkbare structuren binnen die enorme hoeveelheid kennis te verkennen.

Hetzelfde geldt voor nieuwe inzichten die ontstaan door het verbinden van verschillende kennisstukken.

Aan de andere kant, bij het bespreken van dergelijke overeenkomsten en verbanden met een vooraf getrainde generatieve AI, kan deze de waarde ervan vrij nauwkeurig evalueren.

Daarom is het door het invoeren van diverse kennisstukken in generatieve AI, en deze willekeurig of uitputtend te vergelijken, mogelijk om onverwachte overeenkomsten en waardevolle verbanden te ontdekken.

Natuurlijk is het, gezien het immense aantal combinaties, onpraktisch om alles te behandelen. Echter, door dit proces op passende wijze te stroomlijnen en te automatiseren, wordt het mogelijk om nuttige kennis automatisch op te graven uit bestaande kennis.

Door een dergelijke automatische kennisontdekking te realiseren en de ontdekte kennis op GitHub op te slaan, zou deze lus schijnbaar voor onbepaalde tijd kunnen doorgaan.

Zo bestaan er binnen deze Intellectuele Mijn talrijke onontdekte aders, en zal het mogelijk worden deze op te graven.

Conclusie

Naarmate een de facto standaard, de gedeelde kennisbank van de mensheid, zoals GitHub, op deze manier vorm krijgt, zal deze waarschijnlijk worden gebruikt voor de pre-training van generatieve AI en voor kennisophaalmechanismen zoals RAG.

In een dergelijk scenario zal GitHub zelf functioneren als een massief cerebrum. Generatieve AI's zullen dit cerebrum vervolgens delen, waardoor kennis wordt verspreid en uitgebreid.

De kennis die daar aanvullend wordt vastgelegd, zal niet slechts feitelijke gegevens, nieuwe data of classificaties zijn. Het zal ook kennis omvatten die werkt als een katalysator, die de ontdekking van andere kennis en nieuwe combinaties bevordert.

Dergelijke kennis met een katalytisch effect noem ik een Intellectueel Kristal, of een kristal van kennis. Dit omvat bijvoorbeeld nieuwe denkkaders.

Wanneer frameworks nieuw worden ontdekt of ontwikkeld, en Intellectuele Kristallen worden toegevoegd, maakt hun katalytische effect nieuwe combinaties en structurering van kennis mogelijk die voorheen ondenkbaar waren, wat leidt tot een toename van nieuwe kennis.

Soms kunnen deze nog een Intellectueel Kristal bevatten, wat de kennis dan verder versterkt.

Dit type kennis ligt dichter bij wiskundig onderzoek, technische ontwikkeling of uitvinding, dan bij wetenschappelijke ontdekking. Het is daarom kennis die puur door gedachte groeit, in plaats van door nieuwe observationele feiten zoals wetenschappelijke kennis.

En GitHub, als een Intellectuele Mijn, samen met talloze generatieve AI's die het benutten, zal de groei van dergelijke kennis versnellen.

Deze snel ontdekte kennis, die het tempo van menselijke ontdekkingen ver overtreft, zal door Intellectuele Fabrieken in een gemakkelijk te begrijpen formaat worden aangeboden.

Op deze manier zal kennis die puur door gedachte kan worden verkend, snel worden opgegraven.