Passer au contenu
Cet article a été traduit du japonais à l'aide de l'IA
Lire en japonais
Cet article est dans le domaine public (CC0). N'hésitez pas à l'utiliser librement. CC0 1.0 Universal

GitHub comme Mine Intellectuelle

Connaissez-vous GitHub, ce service web utilisé comme plateforme de développement collaboratif par les développeurs de logiciels open source ?

Ces dernières années, son utilisation comme espace de travail collaboratif s'est étendue au-delà des logiciels open source, englobant le développement de logiciels d'entreprise et même des applications non liées au logiciel.

J'utilise également GitHub pour gérer mes propres programmes et les ébauches des articles que j'écris pour ce blog.

Dans cet article, j'explorerai la possibilité que l'utilisation de GitHub s'étende de plus en plus au-delà du logiciel, pour devenir un espace partagé de connaissance ouverte.

Génération de sites Wiki par DeepWiki

De nombreux outils de développement logiciel utilisant l'IA générative sont conçus pour assister les programmeurs humains. Dans ces outils, les humains écrivent le programme et l'IA apporte son soutien.

Cependant, un nouveau type d'outil de développement logiciel émerge, où les humains ne donnent que des instructions, et l'IA générative prend en charge la tâche de création du programme.

Devin, un outil pionnier qui a attiré l'attention, en est un exemple. Certains ont dit qu'introduire Devin revenait à ajouter un programmeur supplémentaire à l'équipe de développement. Bien qu'il soit encore dit que les ingénieurs humains doivent fournir un soutien détaillé pour une utilisation efficace, ces données seront sans aucun doute collectées et utilisées pour des améliorations futures.

L'ère où une équipe de développement logiciel typique se compose d'un humain et de programmeurs IA comme Devin est à nos portes.

Cognition, le développeur de Devin, a également lancé un service appelé DeepWiki.

DeepWiki est un service qui génère automatiquement un site wiki pour chaque projet de développement logiciel sur GitHub. Cela signifie qu'une IA comme Devin lit et analyse tous les programmes et documents connexes d'un projet, puis crée toute la documentation et les spécifications de conception.

Cognition aurait généré des sites wiki pour plus de 50 000 des principaux projets de développement logiciel publics sur GitHub, librement accessibles à tous.

Puisqu'il s'agit de projets publics, il n'y a aucun problème à le faire. Bien que les sites wiki puissent être générés automatiquement, cela a dû impliquer de nombreuses IA génératives fonctionnant à pleine capacité pendant une période prolongée, entraînant des coûts considérables.

En assumant ces coûts, Cognition a permis à un grand nombre de projets publics de bénéficier gratuitement de documentation et de spécifications de conception.

Si des données statistiques montrent que ces sites wiki sont utiles pour les projets publics et ont un impact significatif sur l'amélioration de la qualité et de la productivité, les entreprises de développement logiciel adopteront probablement DeepWiki pour leurs propres projets.

Cognition a dû investir dans la génération de sites wiki pour de nombreux projets publics, convaincue que cela se produirait. Cela démontre la confiance de Cognition en DeepWiki. Et si DeepWiki est adopté, Devin suivra automatiquement, accélérant considérablement la popularisation des programmeurs IA.

GitHub comme plateforme de partage de documents

GitHub est devenu un service web populaire et de facto standard pour le partage, l'édition collaborative et le stockage de programmes destinés au développement de logiciels open source.

Ces dernières années, ses solides fonctionnalités de gestion et de sécurité pour les entreprises ont conduit à son utilisation courante par les sociétés de développement logiciel avancées.

En conséquence, GitHub véhicule souvent l'image d'un service web principalement destiné au stockage et au partage de programmes. Cependant, en réalité, il permet le partage, l'édition collaborative et le stockage de divers documents et matériaux, totalement indépendants des programmes.

Pour cette raison, de nombreuses personnes utilisent GitHub pour gérer des documents qu'elles souhaitent éditer en collaboration à grande échelle. Ces documents peuvent être liés à des logiciels ou être entièrement sans rapport.

De plus, les blogs et les sites web sont également des documents qui contiennent un type de programme ou sont structurés par des programmes pour être publiés.

Par conséquent, il n'est pas rare que des individus et des entreprises stockent le contenu de blogs et de sites web, ainsi que les programmes de présentation et de génération automatique de sites, ensemble en tant que projet GitHub unique.

Il est également possible de faire de ces contenus de blogs et de sites web des projets GitHub publics pour permettre l'édition collaborative.

Récemment, en plus d'utiliser l'IA générative pour le développement de logiciels, il est de plus en plus courant d'intégrer des fonctionnalités d'IA générative directement dans les logiciels.

Dans de tels cas, des instructions détaillées pour l'IA générative, appelées prompts, sont intégrées au programme.

Ces prompts peuvent également être considérés comme un type de document.

Usine Intellectuelle

Bien que je sois ingénieur logiciel, j'écris également des articles pour mon blog.

Si je souhaite que beaucoup de gens les lisent, augmenter le nombre de lecteurs est un véritable défi.

Bien sûr, je pourrais envisager de créer des articles pour attirer l'attention ou contacter directement diverses personnes influentes pour obtenir des conseils, en faisant preuve d'ingéniosité et d'efforts.

Cependant, compte tenu de ma personnalité et des efforts et du stress que cela implique, je ne suis pas enthousiaste à l'idée d'une promotion agressive. De plus, y consacrer du temps détournerait mon attention des aspects fondamentaux de mon travail : la création de programmes, la réflexion et la rédaction de documents.

C'est pourquoi j'ai récemment décidé d'essayer une stratégie "multimédia" ou "omnicanale" pour étendre la portée de mes articles de blog en les diffusant sous différents formats de contenu.

Plus précisément, cela implique de traduire des articles japonais en anglais et de les publier sur un site de blog en anglais, ainsi que de créer des vidéos de présentation pour expliquer les articles et de les publier sur YouTube.

En outre, au-delà de la publication sur des services de blog généralistes, j'envisage également de créer mon propre site de blog avec un index de mes articles passés par catégorie et en reliant les articles associés.

Si je devais créer tout cela manuellement chaque fois qu'un nouvel article est ajouté, cela irait à l'encontre du but recherché. Par conséquent, toutes les tâches, à l'exception de la rédaction de l'article japonais initial, sont automatisées à l'aide de l'IA générative. J'appelle cela une Usine Intellectuelle.

Je dois développer des programmes pour réaliser ce système.

Actuellement, j'ai déjà créé des programmes capables d'automatiser entièrement la traduction, la génération de vidéos de présentation et le téléchargement sur YouTube.

Je suis maintenant en train de créer des programmes de base pour catégoriser et lier les articles de blog existants.

Une fois cela terminé, et après avoir créé un programme pour générer mon site de blog personnalisé et le déployer automatiquement sur un serveur web, le concept initial de mon Usine Intellectuelle sera entièrement réalisé.

L'Usine Intellectuelle au sens large

Les brouillons de mes articles de blog, qui servent de matières premières à cette Usine Intellectuelle, sont également gérés comme des projets GitHub. Actuellement, ils ne sont pas divulgués publiquement en tant que projets privés, mais j'envisage de les rendre des projets publics à l'avenir, en même temps que les programmes de l'Usine Intellectuelle.

En outre, la catégorisation des articles de blog, la liaison entre articles et les explications vidéo des articles de blog que je suis en train de développer partagent le même concept sous-jacent que DeepWiki.

Grâce à l'IA générative, des œuvres créatives originales sont utilisées comme matières premières pour produire divers contenus. De plus, les informations et les connaissances contenues dans ce contenu peuvent être connectées pour créer ce que l'on pourrait appeler une base de connaissances.

La seule différence réside dans le fait que la matière première est un programme ou un article de blog. Et pour DeepWiki et mon Usine Intellectuelle, alimentées par l'IA générative, cette différence est largement insignifiante.

En d'autres termes, si le terme "Usine Intellectuelle" est interprété dans un sens général et plus large, non limité à mes programmes spécifiques, DeepWiki est également un type d'Usine Intellectuelle.

De plus, ce qu'une Usine Intellectuelle produit ne se limite pas aux articles traduits dans d'autres langues, aux vidéos de présentation, ou aux sites de blog et wiki auto-construits.

Elle sera probablement capable de convertir du contenu dans tous les médias et formats imaginables, tels que des courtes vidéos, des tweets, des mangas et animes, des podcasts et des livres électroniques.

En outre, le contenu de ces médias et formats pourra également être diversifié pour s'adapter à divers publics, incluant une multilinguisme plus large, des versions pour experts ou débutants, et des versions pour adultes ou enfants.

Finalement, même la génération à la demande de contenu personnalisé sera possible.

GitHub comme Mine Intellectuelle

Les matières premières pour une Usine Intellectuelle peuvent, en principe, être stockées n'importe où.

Cependant, considérant que GitHub est devenu la norme de facto pour le partage, l'édition collaborative et le stockage de programmes pour les projets open source, et que diverses personnes — pas seulement moi — utilisent GitHub comme lieu de stockage de documents, il devient évident que GitHub a le potentiel de devenir la principale source de matières premières pour les Usines Intellectuelles.

En d'autres termes, GitHub deviendra une Mine Intellectuelle partagée par l'humanité, fournissant des matières premières aux Usines Intellectuelles.

L'expression « partagé par l'humanité » fait écho ici à l'idée que les projets open source sont un actif logiciel partagé par l'humanité.

La philosophie open source qui a sous-tendu GitHub s'adaptera également bien au concept de documents ouverts.

De plus, une culture de gestion des informations de copyright et des licences pour chaque document, similaire aux programmes, pourrait émerger. Le contenu généré automatiquement à partir des documents sources peut facilement se voir attribuer la même licence ou se conformer aux règles stipulées par la licence.

Du point de vue de la création d'une Usine Intellectuelle, la consolidation des documents de matières premières sur GitHub est idéale.

Cela offre deux avantages : le bénéfice de l'efficacité du développement, car il suffit de connecter GitHub à l'Usine Intellectuelle, et la capacité de démontrer efficacement les fonctions et les performances de sa propre Usine Intellectuelle aux documents publiquement disponibles, tout comme DeepWiki.

À l'avenir, à mesure que diverses Usines Intellectuelles seront développées et connectées à GitHub, et que davantage d'individus et d'entreprises géreront des documents sur GitHub pour un traitement par les Usines Intellectuelles, la position de GitHub en tant que Mine Intellectuelle devrait se consolider.

La Base de Connaissances Publique Partagée de l'Humanité

Avec GitHub en son cœur, servant de Mine Intellectuelle, et des Usines Intellectuelles produisant une grande variété de contenus et de bases de connaissances, cet écosystème entier créera une base de connaissances publique partagée par l'humanité.

De plus, il s'agira d'une base de connaissances dynamique et en temps réel qui s'étendra automatiquement à mesure que le nombre de documents publiés sur GitHub augmentera.

Bien que cette base de connaissances complexe et énorme, contenant de vastes quantités de savoir, soit bénéfique pour les humains, il sera probablement difficile pour nous d'en extraire pleinement la valeur potentielle.

Cependant, l'IA sera capable d'exploiter pleinement cette base de connaissances de l'humanité, partagée publiquement.

Les filons de la Connaissance Publique

Lorsque cet écosystème sera réalisé, diverses informations publiques convergeront naturellement vers GitHub.

Cela ne se limitera pas aux brouillons de blogs personnels ou de sites web d'entreprise.

Des insights et des données académiques, tels que des prépublications, des idées de recherche, des données expérimentales et des résultats d'enquêtes, y seront également recueillis.

Cela attirera non seulement ceux qui souhaitent contribuer des connaissances, des idées et des données au bénéfice de toute l'humanité, mais aussi ceux qui cherchent à diffuser rapidement des découvertes pour obtenir une reconnaissance.

Même les universitaires et les chercheurs pourraient trouver de la valeur à ce que leur travail soit validé par l'IA en termes de validité, de nouveauté et d'impact, exprimé à travers divers formats de contenu, et reconnu en "devenant viral", plutôt que d'attendre le long et fastidieux processus d'évaluation par les pairs pour leurs articles.

Alternativement, si leur travail attire l'attention d'autres chercheurs ou entreprises de cette manière, menant à des collaborations de recherche ou à des financements, il y a des avantages tangibles.

De plus, il y aura une recirculation des connaissances propres à l'IA.

Bien que l'IA générative acquière de vastes quantités de connaissances par pré-entraînement, elle n'apprend pas activement en explorant des connexions inattendues ou des structures similaires parmi cet énorme corpus de connaissances.

Il en va de même pour les nouvelles perspectives qui émergent en connectant différentes pièces de connaissance.

D'autre part, en discutant de ces similitudes et connexions avec une IA générative pré-entraînée, elle peut évaluer leur valeur de manière assez précise.

Par conséquent, en fournissant diverses connaissances à l'IA générative, en les comparant de manière aléatoire ou exhaustive, il est possible de découvrir des similitudes inattendues et des connexions précieuses.

Bien sûr, étant donné le nombre immense de combinaisons, tout couvrir est irréalisable. Cependant, en rationalisant et en automatisant ce processus de manière appropriée, il devient possible de dénicher automatiquement des connaissances utiles à partir des connaissances existantes.

En réalisant une telle découverte automatique de connaissances et en stockant les connaissances découvertes sur GitHub, cette boucle pourrait apparemment se poursuivre indéfiniment.

Ainsi, au sein de cette Mine Intellectuelle, de nombreux filons inconnus existent, et il deviendra possible de les excaver.

Conclusion

En tant que base de connaissances partagée par l'humanité, devenue un standard de facto, GitHub, en prenant cette forme, sera probablement utilisé pour le pré-entraînement de l'IA générative et pour des mécanismes de récupération de connaissances tels que le RAG.

Dans un tel scénario, GitHub lui-même fonctionnera comme un gigantesque cerveau. Les IA génératives partageront alors ce cerveau, distribuant et augmentant la connaissance.

Les connaissances supplémentaires qui y seront enregistrées ne seront pas de simples faits, de nouvelles données ou des classifications. Elles comprendront également des connaissances agissant comme un catalyseur, favorisant la découverte d'autres connaissances et de nouvelles combinaisons.

J'appelle de telles connaissances à effet catalytique un Cristal Intellectuel, ou un cristal de connaissance. Cela inclut, par exemple, de nouveaux cadres de pensée.

Lorsque des cadres sont nouvellement découverts ou développés, et que des Cristaux Intellectuels sont ajoutés, leur effet catalytique permet de nouvelles combinaisons et structurations de connaissances auparavant impossibles, conduisant à une augmentation de nouvelles connaissances.

Parfois, ceux-ci peuvent contenir un autre Cristal Intellectuel, qui amplifie alors davantage la connaissance.

Ce type de connaissance se rapproche davantage de la recherche mathématique, du développement d'ingénierie ou de l'invention, plutôt que de la découverte scientifique. Il s'agit donc d'une connaissance qui se développe purement par la pensée, plutôt que par de nouveaux faits observationnels comme la connaissance scientifique.

Et GitHub, en tant que Mine Intellectuelle, ainsi que d'innombrables IA génératives l'utilisant, accéléreront la croissance de cette connaissance.

Ces connaissances rapidement découvertes, dépassant de loin le rythme de la découverte à l'échelle humaine, seront fournies dans un format facilement compréhensible par les Usines Intellectuelles.

De cette manière, la connaissance qui peut être explorée purement par la pensée sera rapidement déterrée.