Connaissez-vous GitHub, le service web qui a été utilisé comme plateforme de développement collaboratif par les développeurs de logiciels open source ?
Ces dernières années, son utilisation en tant que plateforme de travail collaboratif s'est étendue, non seulement aux logiciels open source, mais aussi au développement de logiciels d'entreprise et même à des fins non liées aux logiciels.
J'utilise également GitHub pour gérer mes propres programmes et les ébauches des articles que j'écris pour ce blog.
Dans cet article, j'explorerai la possibilité que l'utilisation de GitHub s'étende de plus en plus au-delà du développement logiciel à l'avenir, devenant un lieu de partage ouvert des connaissances.
Génération de Sites Wiki par DeepWiki
De nombreux outils de développement logiciel utilisant l'IA générative sont conçus pour assister les tâches de programmation humaines. Les humains écrivent les programmes, et l'IA apporte son soutien.
D'autre part, un nouveau type d'outil de développement logiciel émerge, où les humains ne donnent que des instructions, et l'IA générative prend en charge la tâche de création de programmes.
Devin est un de ces outils qui est devenu un pionnier et a attiré l'attention. Certaines personnes ont même dit qu'introduire Devin revenait à ajouter un programmeur supplémentaire à l'équipe de développement. Bien qu'il soit encore dit que les ingénieurs humains doivent fournir un soutien détaillé pour qu'il soit utilisé efficacement, de telles données seront sûrement collectées et utilisées pour l'amélioration.
L'ère où les équipes de développement logiciel composées d'un humain et de programmeurs IA comme Devin en tant que membres d'équipe deviendront monnaie courante est imminente.
Cognition, le développeur de Devin, a également lancé un service appelé DeepWiki.
DeepWiki est un service qui génère automatiquement un site wiki pour chaque projet de développement logiciel sur GitHub. Cela signifie qu'une IA, similaire à Devin, lit et analyse tous les programmes et documents connexes de ce projet et crée tous les manuels et documents de conception.
Cognition aurait créé des sites wiki pour plus de 50 000 projets de développement logiciel publics majeurs sur GitHub, librement accessibles à tous, en utilisant DeepWiki.
Puisqu'il s'agit de projets publics, il n'y a absolument aucun problème à le faire. Bien que les sites wiki puissent être générés automatiquement, cela a dû nécessiter que de nombreuses IA génératives fonctionnent à pleine capacité pendant une longue période, et le coût a dû être considérable.
En supportant ces coûts, Cognition a apporté un grand avantage à un vaste nombre de projets publics, leur permettant d'obtenir gratuitement des explications et des documents de conception.
Si des données statistiques montrent que ces sites wiki sont utiles pour chaque projet public et ont un effet significatif sur l'amélioration de la qualité et de la productivité, alors les entreprises de développement logiciel adopteront DeepWiki pour leurs propres projets.
Cognition a dû investir dans la génération de sites wiki pour un vaste nombre de projets publics, persuadée que cela pourrait arriver. Cela démontre la confiance de Cognition en DeepWiki. Et lorsque DeepWiki sera adopté, Devin suivra automatiquement, augmentant considérablement la probabilité d'une adoption généralisée des programmeurs IA.
GitHub en tant que Plateforme de Partage de Documents
GitHub est devenu un service web populaire et de facto standard pour le partage, la coédition et le stockage de programmes pour le développement de logiciels open source.
Ces dernières années, ses fonctionnalités de gestion et de sécurité pour les entreprises ont été améliorées, en faisant un outil courant dans les entreprises de pointe qui développent des logiciels.
Pour cette raison, GitHub évoque fortement l'image d'un service web de stockage et de partage de programmes. Cependant, en réalité, il peut être utilisé pour partager, coéditer et stocker divers documents et matériels, complètement indépendants des programmes.
Par conséquent, bon nombre de personnes utilisent GitHub pour gérer des documents qu'elles souhaitent coéditer largement. Il peut s'agir de documents liés aux logiciels ou de documents totalement non liés.
De plus, les blogs et les sites web sont également des documents qui contiennent un type de programme ou qui sont structurés et publiés par des programmes.
Pour cette raison, il n'est pas rare que des individus et des entreprises stockent le contenu de blogs et de sites web, ainsi que les programmes qui les rendent faciles à consulter et les programmes de génération automatique de sites, ensemble comme un seul projet sur GitHub.
Il est également possible de faire de ces blogs et sites web des projets publics sur GitHub pour la coédition de leur contenu.
De plus, récemment, l'IA générative n'est pas seulement utilisée pour le développement de logiciels, mais elle est aussi souvent intégrée dans les logiciels.
Dans ce cas, des phrases d'instruction appelées "prompts", qui donnent des instructions détaillées à l'IA générative, sont intégrées dans les programmes.
Ces prompts peuvent également être considérés comme un type de document.
Usine Intellectuelle
Bien que je sois ingénieur en développement logiciel, j'écris aussi des articles pour mon blog.
Bien que je souhaite que de nombreuses personnes les lisent, il est assez difficile d'augmenter le nombre de lecteurs.
Bien sûr, on pourrait envisager de créer des articles pour attirer l'attention ou de contacter activement des personnes influentes pour obtenir des conseils, parmi d'autres efforts et astuces.
Cependant, compte tenu de ma personnalité et de l'effort et du stress impliqués, je suis réticent à m'engager dans une promotion agressive. De plus, passer du temps sur de telles activités me détournerait du cœur de mon travail, qui implique de programmer, de méditer des idées et de les documenter.
Par conséquent, j'ai récemment décidé d'essayer une stratégie connue sous le nom de multimédia ou omnicanal, qui consiste à étendre la portée de mes articles de blog en les développant sous diverses formes de contenu.
Plus précisément, cela inclut la traduction d'articles japonais en anglais et leur publication sur des sites de blogs anglais, ainsi que la création de vidéos de présentation pour expliquer les articles et leur publication sur YouTube.
De plus, en plus de publier sur des services de blogs généraux, j'envisage également de créer mon propre site de blog qui liste et catégorise mes anciens articles de blog et lie les articles connexes.
Si je devais passer du temps à créer tout cela chaque fois qu'un nouvel article est écrit, ce serait contre-productif. Par conséquent, toutes les tâches autres que la rédaction de l'article japonais initial sont automatisées à l'aide de l'IA générative. J'appelle cela une usine intellectuelle.
Je dois développer des programmes pour mettre en œuvre ce mécanisme.
Actuellement, j'ai déjà créé des programmes capables d'automatiser entièrement la traduction, la génération de vidéos de présentation et le téléchargement sur YouTube.
Je suis maintenant en train de créer des programmes de base pour catégoriser et lier les articles de blog existants.
Une fois cela terminé, et que j'aurai créé un programme pour générer mon propre site de blog et le refléter automatiquement sur un serveur web, le concept initial de mon usine intellectuelle sera complet.
L'Usine Intellectuelle au Sens Large
Les ébauches de mes articles de blog, qui servent de matière première à cette usine intellectuelle, sont également gérées comme un projet GitHub. Pour l'instant, elles sont privées et non accessibles au public, mais j'envisage de les rendre publiques à l'avenir, ainsi que les programmes de l'usine intellectuelle.
Et la catégorisation des articles de blog, la liaison des articles et l'explication des articles de blog transformés en vidéo, que je développe actuellement, partagent le même concept sous-jacent que DeepWiki.
Grâce à l'IA générative, divers contenus sont produits à partir d'œuvres créatives originales comme matières premières. De plus, elle peut connecter des informations et des connaissances en leur sein, créant ainsi efficacement une base de connaissances.
La seule différence est de savoir si la matière première est un programme ou un article de blog. Et pour DeepWiki et mon usine intellectuelle alimentée par l'IA générative, cette différence est presque insignifiante.
En d'autres termes, si le terme "usine intellectuelle" est interprété dans un sens général et plus large, non limité à mon programme, alors DeepWiki est aussi un type d'usine intellectuelle.
Et ce que les usines intellectuelles produisent ne se limite pas aux articles traduits dans d'autres langues, aux vidéos de présentation, aux sites de blog auto-créés ou aux sites wiki.
Elles seront probablement capables de convertir le contenu dans tous les médias et formats imaginables, tels que les courtes vidéos, les tweets, les bandes dessinées, l'animation, les podcasts et les livres électroniques.
De plus, le contenu de ces médias et formats peut également être diversifié pour s'adapter au destinataire, comme un support multilingue plus large, des versions pour experts ou débutants, et des versions pour adultes ou enfants.
En outre, même la génération à la demande de contenu personnalisé est réalisable.
GitHub en tant que Mine Intellectuelle
Les matières premières d'une usine intellectuelle peuvent fondamentalement se situer n'importe où.
Cependant, étant donné que GitHub est devenu le standard de facto pour le partage, la coédition et le stockage des programmes de projets open source, et que de nombreuses personnes, et pas seulement moi-même, utilisent GitHub comme lieu de stockage de documents, il devient évident que GitHub a le potentiel de devenir une source primaire de matières premières pour les usines intellectuelles.
En d'autres termes, GitHub deviendra une mine intellectuelle partagée par l'humanité, fournissant des matières premières aux usines intellectuelles.
L'expression "partagé par l'humanité" fait ici écho à l'idée que les projets open source sont un atout logiciel partagé par l'humanité.
La philosophie open source qui a soutenu GitHub s'accordera également bien avec le concept de documents ouverts.
De plus, une culture de gestion des informations de copyright et des licences pour chaque document, similaire à celle des programmes, pourrait émerger. Le contenu généré automatiquement à partir de documents sources peut facilement se voir attribuer la même licence, ou se conformer aux règles stipulées par la licence.
Du point de vue du développement d'une usine intellectuelle, la centralisation des documents bruts sur GitHub est idéale.
Cela offre deux avantages : une efficacité de développement améliorée en connectant simplement GitHub à l'usine intellectuelle, et la capacité de démontrer efficacement les fonctions et les performances de sa propre usine intellectuelle en utilisant des documents accessibles au public, à l'instar de DeepWiki.
À l'avenir, à mesure que diverses usines intellectuelles seront développées et pourront se connecter à GitHub, et que davantage de personnes et d'entreprises géreront des documents sur GitHub et les traiteront avec des usines intellectuelles, la position de GitHub en tant que mine intellectuelle devrait être solidement établie.
Base de Connaissances Publique Partagée par l'Humanité
Avec GitHub en son centre, agissant comme une mine intellectuelle, et divers contenus et bases de connaissances produits par des usines intellectuelles, cet écosystème entier créera une base de connaissances publique partagée par l'humanité.
De plus, il s'agit d'une base de connaissances dynamique et en temps réel qui s'étendra automatiquement à mesure que le nombre de documents publiés sur GitHub augmentera.
Bien que cette base de connaissances vaste et complexe, contenant une immense quantité de savoir, sera utile aux humains, il sera difficile d'en extraire pleinement sa valeur potentielle.
Cependant, l'IA sera capable d'utiliser pleinement cette base de connaissances publique, partagée par toute l'humanité.
Filons de Connaissances Publiques
Si un tel écosystème se réalise, diverses informations publiques convergeront naturellement sur GitHub.
Cela ne se limitera pas aux brouillons de blogs personnels ou de sites web d'entreprise.
Des aperçus et données académiques, tels que des articles pré-publication et des idées de recherche, des données expérimentales et des résultats d'enquêtes, s'y accumuleront également.
Cela attirera non seulement ceux qui souhaitent utiliser les connaissances, les idées et les données au profit de toute l'humanité, mais aussi ceux qui désirent diffuser rapidement leurs découvertes et obtenir de la reconnaissance.
Même pour les universitaires et les chercheurs, beaucoup trouveraient de la valeur à ce que la validité, la nouveauté et l'impact de leurs travaux soient vérifiés par l'IA, exprimés à travers divers contenus, et reconnus de manière virale, sans avoir à attendre le long processus d'évaluation par les pairs.
Alternativement, si leur travail attire l'attention d'autres chercheurs ou entreprises de cette manière, menant à une recherche collaborative ou à un financement, il y a aussi des avantages pratiques.
En outre, il y aura probablement un flux de retour des connaissances propres à l'IA.
L'IA générative acquiert de vastes quantités de connaissances par le biais de la pré-formation, mais elle n'explore pas activement les connexions inattendues ou les structures similaires entre ces vastes connaissances pendant l'apprentissage.
Il en va de même pour les nouvelles perspectives qui émergent de la connexion de différentes pièces de connaissances.
D'autre part, lorsqu'on explique de telles similarités et connexions lors de conversations avec une IA générative pré-entraînée, celle-ci peut évaluer leur valeur avec une grande précision.
Par conséquent, en comparant et en connectant de manière aléatoire ou exhaustive diverses connaissances et en les entrant dans une IA générative, il est possible de découvrir des similarités inattendues et des connexions précieuses.
Bien sûr, étant donné le nombre énorme de combinaisons, il est irréaliste de toutes les couvrir. Cependant, en rationalisant et en automatisant ce processus de manière appropriée, il devient possible de découvrir automatiquement des connaissances utiles à partir des connaissances existantes.
En réalisant une telle découverte automatique de connaissances et en stockant les connaissances découvertes sur GitHub, il semble possible de répéter cette boucle indéfiniment.
De cette manière, de nombreux filons de connaissances inexplorés existent au sein de cette mine intellectuelle, et il deviendra possible de les excaver.
Conclusion
Alors qu'une base de connaissances humaine partagée et de facto standard comme GitHub s'établit, elle sera probablement utilisée pour le pré-entraînement de l'IA générative et pour la récupération de connaissances, comme le RAG.
Dans ce scénario, GitHub lui-même fonctionnera comme un gigantesque cerveau. Et l'IA générative partagera ce cerveau, distribuant et étendant les connaissances tout en les partageant.
Les connaissances additionnellement enregistrées ne comprendront pas seulement des enregistrements de faits, de nouvelles données ou des classifications. Elles pourront également inclure des connaissances catalytiques qui favorisent la découverte d'autres connaissances ou de nouvelles combinaisons.
J'appelle ces connaissances ayant un effet catalytique des "cristaux intellectuels" ou "cristaux de savoir". Cela inclut, par exemple, de nouveaux cadres de pensée.
Lorsqu'un cadre est nouvellement découvert ou développé et qu'un cristal intellectuel y est ajouté, son effet catalytique permet des combinaisons et une structuration des connaissances différentes d'auparavant, menant à la croissance de nouvelles connaissances.
Parmi celles-ci, il peut y avoir d'autres cristaux de savoir. Cela, à son tour, augmentera encore les connaissances.
De telles connaissances ne sont pas une découverte scientifique mais quelque chose de plus proche de l'investigation mathématique, du développement d'ingénierie ou de l'invention. Par conséquent, c'est une connaissance qui croît purement par la pensée, plutôt que par de nouveaux faits observationnels comme la connaissance scientifique.
Et GitHub, en tant que mine intellectuelle, ainsi que d'innombrables IA génératives l'utilisant, accéléreront la croissance de telles connaissances.
Les connaissances découvertes les unes après les autres à un rythme dépassant de loin l'échelle de découverte humaine seront fournies sous une forme facile à comprendre par les usines de connaissances.
De cette manière, les connaissances qui peuvent être explorées purement par la pensée seront rapidement excavées.