Zum Inhalt springen
Dieser Artikel wurde mittels KI aus dem Japanischen übersetzt
Auf Japanisch lesen
Dieser Artikel ist gemeinfrei (CC0). Fühlen Sie sich frei, ihn uneingeschränkt zu nutzen. CC0 1.0 Universal

GitHub als intellektuelle Mine

Kennen Sie GitHub, den Webdienst, der von Open-Source-Softwareentwicklern als kollaborative Entwicklungsplattform genutzt wird?

In den letzten Jahren hat sich seine Nutzung als kollaborativer Arbeitsbereich über Open-Source-Software hinaus auf die Entwicklung von Unternehmenssoftware und sogar auf nicht-softwarebezogene Anwendungen ausgeweitet.

Ich nutze GitHub auch zur Verwaltung meiner eigenen Programme und der Entwürfe der Artikel, die ich für diesen Blog schreibe.

In diesem Artikel werde ich die Möglichkeit untersuchen, dass sich die Nutzung von GitHub zunehmend über Software hinaus erweitern und zu einem gemeinsamen Raum für offenes Wissen wird.

Wiki-Site-Generierung durch DeepWiki

Viele Softwareentwicklungstools, die generative KI nutzen, sind darauf ausgelegt, menschliche Programmierer zu unterstützen. Bei diesen Tools schreiben Menschen das Programm, und die KI leistet Unterstützung.

Es entsteht jedoch ein neuer Typ von Softwareentwicklungstool, bei dem Menschen nur Anweisungen geben und die generative KI die Aufgabe der Programmerstellung übernimmt.

Ein solches wegweisendes Tool, das Aufmerksamkeit erregte, ist Devin. Manche haben gesagt, dass die Einführung von Devin so ist, als würde man dem Entwicklungsteam einen weiteren Programmierer hinzufügen. Obwohl noch gesagt wird, dass menschliche Ingenieure detaillierte Unterstützung für eine effektive Nutzung leisten müssen, werden solche Daten zweifellos gesammelt und für weitere Verbesserungen verwendet.

Die Ära, in der ein typisches Softwareentwicklungsteam aus einem Menschen und KI-Programmierern wie Devin als Teammitglieder besteht, rückt schnell näher.

Cognition, der Entwickler von Devin, hat auch einen Dienst namens DeepWiki veröffentlicht.

DeepWiki ist ein Dienst, der automatisch eine Wiki-Site für jedes Softwareentwicklungsprojekt auf GitHub generiert. Das bedeutet, dass eine KI wie Devin alle Programme und zugehörigen Dokumente eines Projekts liest und analysiert und dann die gesamte Dokumentation und die Designspezifikationen erstellt.

Berichten zufolge hat Cognition für über 50.000 der wichtigsten öffentlichen Softwareentwicklungsprojekte auf GitHub, die für jedermann frei zugänglich sind, Wiki-Sites generiert.

Da es sich um öffentliche Projekte handelt, ist dies unproblematisch. Obwohl Wiki-Sites automatisch generiert werden können, muss dies zahlreiche generative KIs erfordert haben, die über einen längeren Zeitraum mit voller Kapazität liefen, was erhebliche Kosten verursachte.

Durch die Übernahme dieser Kosten durch Cognition profitierten eine große Anzahl öffentlicher Projekte davon, Dokumentationen und Designspezifikationen kostenlos zu erhalten.

Wenn statistische Daten zeigen, dass diese Wiki-Sites für öffentliche Projekte nützlich sind und einen signifikanten Einfluss auf die Qualitäts- und Produktivitätsverbesserung haben, werden Softwareentwicklungsunternehmen DeepWiki wahrscheinlich für ihre eigenen Projekte übernehmen.

Cognition muss in die Generierung von Wiki-Sites für zahlreiche öffentliche Projekte investiert haben, in der Überzeugung, dass dies geschehen würde. Dies zeigt Cognitions Vertrauen in DeepWiki. Und wenn DeepWiki übernommen wird, wird Devin automatisch folgen, was die Popularisierung von KI-Programmierern erheblich beschleunigen wird.

GitHub als Plattform zum Teilen von Dokumenten

GitHub hat sich als beliebter und De-facto-Standard-Webdienst für das Teilen, gemeinsame Bearbeiten und Speichern von Programmen für die Open-Source-Softwareentwicklung etabliert.

In den letzten Jahren haben seine robusten Verwaltungs- und Sicherheitsfunktionen für Unternehmen dazu geführt, dass es auch von fortschrittlichen Softwareentwicklungsunternehmen selbstverständlich genutzt wird.

Daher haftet GitHub oft das Image eines Webdienstes an, der hauptsächlich zur Speicherung und Freigabe von Programmen dient. Tatsächlich ermöglicht es jedoch das Teilen, die gemeinsame Bearbeitung und die Speicherung verschiedener Dokumente und Materialien, die völlig unabhängig von Programmen sind.

Aus diesem Grund nutzen viele Menschen GitHub, um Dokumente zu verwalten, die sie gemeinsam umfassend bearbeiten möchten. Diese Dokumente können sich auf Software beziehen oder völlig unrelated sein.

Darüber hinaus sind Blogs und Websites ebenfalls Dokumente, die eine Art Programm enthalten oder durch Programme strukturiert werden, um veröffentlicht zu werden.

Daher ist es nicht ungewöhnlich, dass Einzelpersonen und Unternehmen Blog- und Website-Inhalte zusammen mit Programmen zur Präsentation und automatischen Website-Generierung als ein einziges GitHub-Projekt speichern.

Es ist auch möglich, solche Blog- und Website-Inhalte zu öffentlichen GitHub-Projekten zu machen, um die gemeinsame Bearbeitung zu ermöglichen.

Zuletzt ist es neben der Nutzung generativer KI für die Softwareentwicklung zunehmend üblich, generative KI-Funktionalitäten direkt in Software einzubetten.

In solchen Fällen werden detaillierte Anweisungen für die generative KI, sogenannte Prompts, in das Programm eingebettet.

Diese Prompts können ebenfalls als eine Art Dokument betrachtet werden.

Intellektuelle Fabrik

Obwohl ich Softwareentwickler bin, schreibe ich auch Artikel für meinen Blog.

Obwohl ich möchte, dass viele Leute sie lesen, ist es ziemlich schwierig, die Leserzahl zu erhöhen.

Natürlich könnte ich erwägen, Artikel zu erstellen, um Aufmerksamkeit zu erregen, oder verschiedene einflussreiche Personen direkt um Rat zu kontaktieren, indem ich Anstrengung und Einfallsreichtum investiere.

Angesichts meiner Persönlichkeit und des damit verbundenen Aufwands und Stresses bin ich jedoch nicht begeistert von aggressiver Werbung. Außerdem würde das Verbringen von Zeit mit solchen Aktivitäten Zeit von den Kernaspekten meiner Arbeit ablenken: Programme erstellen, nachdenken und Dokumente schreiben.

Daher habe ich kürzlich beschlossen, eine „Multimedia“- oder „Omnichannel“-Strategie auszuprobieren, um die Reichweite meiner Blogartikel zu erweitern, indem ich sie in verschiedenen Inhaltsformaten bereitstelle.

Konkret bedeutet dies, japanische Artikel ins Englische zu übersetzen und auf einer englischen Blogseite zu veröffentlichen sowie Präsentationsvideos zu erstellen, um Artikel zu erklären und sie auf YouTube zu veröffentlichen.

Darüber hinaus erwäge ich, über die Veröffentlichung auf allgemeinen Blogdiensten hinaus eine eigene Blogseite mit einem Index meiner früheren Artikel nach Kategorie zu erstellen und verwandte Artikel zu verknüpfen.

Wenn ich all dies jedes Mal manuell erstellen müsste, wenn ein neuer Artikel hinzugefügt wird, würde dies den Zweck verfehlen. Daher werden alle Aufgaben außer dem Schreiben des ursprünglichen japanischen Artikels mithilfe generativer KI automatisiert. Dies nenne ich eine Intellektuelle Fabrik.

Ich muss Programme entwickeln, um dieses System zu realisieren.

Derzeit habe ich bereits Programme erstellt, die die Übersetzung, die Generierung von Präsentationsvideos und das Hochladen auf YouTube vollständig automatisieren können.

Jetzt bin ich dabei, grundlegende Programme zur Kategorisierung und Verknüpfung bestehender Blogartikel zu erstellen.

Sobald dies abgeschlossen ist und ich ein Programm zur Generierung meiner benutzerdefinierten Blogseite und deren automatische Bereitstellung auf einem Webserver erstellt habe, wird das ursprüngliche Konzept meiner Intellektuellen Fabrik vollständig umgesetzt sein.

Intellektuelle Fabrik im weiteren Sinne

Die Entwürfe meiner Blogartikel, die als Rohmaterial für diese Intellektuelle Fabrik dienen, werden ebenfalls als GitHub-Projekte verwaltet. Derzeit sind sie nicht als private Projekte öffentlich zugänglich, aber ich erwäge, sie in Zukunft zusammen mit den Programmen der Intellektuellen Fabrik zu öffentlichen Projekten zu machen.

Darüber hinaus teilen die Kategorisierung von Blogartikeln, die Verknüpfung von Artikeln und die Videoerklärungen von Blogartikeln, die ich derzeit entwickle, dasselbe zugrunde liegende Konzept wie DeepWiki.

Mithilfe generativer KI werden originelle kreative Werke als Rohmaterial verwendet, um verschiedene Inhalte zu produzieren. Zusätzlich können Informationen und Wissen innerhalb dieser Inhalte verbunden werden, um das zu schaffen, was man eine Wissensbasis nennen könnte.

Der einzige Unterschied liegt darin, ob das Rohmaterial ein Programm oder ein Blogartikel ist. Und für DeepWiki und meine Intellektuelle Fabrik, angetrieben von generativer KI, ist dieser Unterschied weitgehend unerheblich.

Mit anderen Worten, wenn der Begriff „Intellektuelle Fabrik“ in einem allgemeinen, weiteren Sinne interpretiert wird, nicht beschränkt auf meine spezifischen Programme, ist DeepWiki ebenfalls eine Art Intellektuelle Fabrik.

Darüber hinaus ist das, was eine Intellektuelle Fabrik produziert, nicht auf übersetzte Artikel in anderen Sprachen, Präsentationsvideos oder selbst erstellte Blog- und Wiki-Sites beschränkt.

Sie wird wahrscheinlich in der Lage sein, Inhalte in jedes erdenkliche Medium und Format umzuwandeln, wie zum Beispiel Kurzvideos, Tweets, Manga und Anime, Podcasts und E-Books.

Des Weiteren können die Inhalte innerhalb dieser Medien und Formate auch diversifiziert werden, um verschiedenen Zielgruppen gerecht zu werden, einschließlich umfassenderer Mehrsprachigkeit, Versionen für Experten oder Anfänger und Versionen für Erwachsene oder Kinder.

Letztendlich wird sogar die bedarfsgerechte Generierung kundenspezifischer Inhalte möglich sein.

GitHub als intellektuelle Mine

Die Rohmaterialien für eine Intellektuelle Fabrik können grundsätzlich überall gespeichert werden.

Wenn man jedoch bedenkt, dass GitHub zum De-facto-Standard für das Teilen, die gemeinsame Bearbeitung und das Speichern von Programmen für Open-Source-Projekte geworden ist und dass verschiedene Personen – nicht nur ich selbst – GitHub als Speicherort für Dokumente nutzen, wird deutlich, dass GitHub das Potenzial hat, die primäre Quelle für Rohmaterialien für Intellektuelle Fabriken zu werden.

Mit anderen Worten, GitHub wird zu einer von der Menschheit geteilten Intellektuellen Mine, die Rohmaterialien an Intellektuelle Fabriken liefert.

Der Begriff „von der Menschheit geteilt“ spiegelt hier die Vorstellung wider, dass Open-Source-Projekte ein gemeinsames Software-Asset für die Menschheit sind.

Die Open-Source-Philosophie, die GitHub zugrunde liegt, wird auch gut zum Konzept offener Dokumente passen.

Darüber hinaus könnte eine Kultur entstehen, die Urheberrechtsinformationen und Lizenzen für jedes Dokument, ähnlich wie bei Programmen, verwaltet. Aus Quelldokumenten automatisch generierte Inhalte können problemlos mit derselben Lizenz versehen werden oder den in der Lizenz festgelegten Regeln entsprechen.

Aus der Perspektive der Schaffung einer Intellektuellen Fabrik ist die Konsolidierung von Rohmaterialdokumenten auf GitHub ideal.

Dies bietet zwei Vorteile: den Nutzen der Entwicklungseffizienz, da es lediglich die Verbindung von GitHub mit der Intellektuellen Fabrik erfordert, und die Möglichkeit, die Funktionen und Leistungen der eigenen Intellektuellen Fabrik anhand öffentlich zugänglicher Dokumente effektiv zu demonstrieren, ähnlich wie bei DeepWiki.

Wenn in Zukunft verschiedene Intellektuelle Fabriken entwickelt und mit GitHub verbunden werden und mehr Einzelpersonen und Unternehmen Dokumente auf GitHub zur Verarbeitung durch Intellektuelle Fabriken verwalten, sollte sich die Position von GitHub als Intellektuelle Mine fest etablieren.

Die gemeinsame öffentliche Wissensbasis der Menschheit

Mit GitHub im Zentrum, das als intellektuelle Mine dient, und Intellektuellen Fabriken, die eine breite Vielfalt an Inhalten und Wissensbasen produzieren, wird dieses gesamte Ökosystem eine von der Menschheit geteilte öffentliche Wissensbasis schaffen.

Darüber hinaus wird dies eine dynamische, in Echtzeit aktualisierte Wissensbasis sein, die sich automatisch erweitert, je mehr Dokumente auf GitHub veröffentlicht werden.

Während diese komplexe, enorme Wissensbasis, die riesige Mengen an Wissen enthält, für den Menschen von Vorteil sein wird, wird es für uns wahrscheinlich eine Herausforderung sein, ihr volles Potenzial auszuschöpfen.

KI wird jedoch in der Lage sein, diese öffentlich geteilte Wissensbasis der Menschheit voll auszunutzen.

Wissensadern der Öffentlichkeit

Wenn ein solches Ökosystem realisiert wird, werden verschiedene öffentliche Informationen auf natürliche Weise auf GitHub zusammenlaufen.

Dies wird nicht auf Entwürfe persönlicher Blogs oder Unternehmenswebsites beschränkt sein.

Akademische Erkenntnisse und Daten, wie Pre-Print-Artikel, Forschungsideen, experimentelle Daten und Umfrageergebnisse, werden sich ebenfalls dort ansammeln.

Dies wird nicht nur jene anziehen, die Wissen, Ideen und Daten zum Wohle der gesamten Menschheit beitragen möchten, sondern auch jene, die Entdeckungen schnell verbreiten wollen, um Anerkennung zu erhalten.

Auch Akademiker und Forscher könnten es als wertvoll empfinden, ihre Arbeit von einer KI auf Validität, Neuheit und Wirkung überprüfen zu lassen, in verschiedenen Inhaltsformaten auszudrücken und durch „Viralität“ anerkannt zu werden, anstatt auf den langwierigen, zeitraubenden Peer-Review-Prozess für Fachartikel zu warten.

Alternativ, wenn ihre Arbeit auf diese Weise die Aufmerksamkeit anderer Forscher oder Unternehmen erregt und zu kollaborativer Forschung oder Finanzierung führt, ergeben sich greifbare Vorteile.

Darüber hinaus wird es eine Rezirkulation des eigenen Wissens der KI geben.

Obwohl generative KI durch Vortraining riesige Mengen an Wissen erwirbt, lernt sie nicht aktiv, indem sie unerwartete Verbindungen oder ähnliche Strukturen innerhalb dieser enormen Wissensmenge erkundet.

Dasselbe gilt für neue Erkenntnisse, die sich aus der Verbindung verschiedener Wissenselemente ergeben.

Andererseits kann eine vortrainierte generative KI, wenn man solche Ähnlichkeiten und Verbindungen mit ihr bespricht, deren Wert ziemlich genau einschätzen.

Indem man also verschiedene Wissenselemente in eine generative KI eingibt und diese zufällig oder erschöpfend vergleicht, ist es möglich, unerwartete Ähnlichkeiten und wertvolle Verbindungen zu entdecken.

Angesichts der immensen Anzahl von Kombinationen ist es natürlich unpraktisch, alles abzudecken. Doch durch eine angemessene Rationalisierung und Automatisierung dieses Prozesses wird es möglich, nützliches Wissen aus dem bestehenden Wissen automatisch zu Tage zu fördern.

Indem eine solche automatische Wissensentdeckung erreicht und das entdeckte Wissen auf GitHub gespeichert wird, könnte dieser Kreislauf scheinbar unbegrenzt fortgesetzt werden.

So existieren innerhalb dieser Intellektuellen Mine zahlreiche unentdeckte Adern, und es wird möglich sein, diese abzubauen.

Fazit

Wenn sich auf diese Weise eine gemeinsame Wissensbasis der Menschheit, wie GitHub, als De-facto-Standard etabliert, wird sie voraussichtlich für das Vortraining generativer KI und für Mechanismen der Wissensabfrage wie RAG genutzt werden.

In einem solchen Szenario wird GitHub selbst wie ein riesiges Großhirn funktionieren. Generative KIs werden dieses Großhirn dann teilen, Wissen verteilen und erweitern.

Das zusätzlich dort aufgezeichnete Wissen wird nicht nur bloße Fakten, neue Daten oder Klassifikationen umfassen. Es wird auch Wissen beinhalten, das als Katalysator wirkt und die Entdeckung weiteren Wissens und neuer Kombinationen fördert.

Ich bezeichne solches Wissen mit katalytischer Wirkung als Intellektuellen Kristall oder Wissenskristall. Dies schließt zum Beispiel neue Denkrahmen ein.

Wenn Frameworks neu entdeckt oder entwickelt und Intellektuelle Kristalle hinzugefügt werden, ermöglicht deren katalytische Wirkung neue Kombinationen und Strukturierungen von Wissen, die zuvor unmöglich waren, was zu einer Zunahme neuen Wissens führt.

Manchmal können diese wiederum einen weiteren Intellektuellen Kristall enthalten, der dann das Wissen weiter verstärkt.

Diese Art von Wissen ist eher der mathematischen Untersuchung, der technischen Entwicklung oder Erfindung zuzuordnen als der wissenschaftlichen Entdeckung. Es ist daher Wissen, das rein durch Denken wächst und nicht durch neue beobachtbare Fakten wie wissenschaftliches Wissen.

Und GitHub als Intellektuelle Mine wird zusammen mit unzähligen generativen KIs, die es nutzen, das Wachstum dieses Wissens beschleunigen.

Dieses schnell entdeckte Wissen, das das Tempo menschlicher Entdeckungen weit übertrifft, wird von Intellektuellen Fabriken in einem leicht verständlichen Format bereitgestellt.

Auf diese Weise wird Wissen, das rein durch Denken erforscht werden kann, schnell zutage gefördert.