¿Conoce GitHub, el servicio web que se ha utilizado como plataforma de desarrollo colaborativo entre desarrolladores de software de código abierto?
En los últimos años, su uso como plataforma para el trabajo colaborativo se ha expandido, no solo para software de código abierto, sino también para el desarrollo de software empresarial e incluso para fines no relacionados con el software.
Yo también utilizo GitHub para gestionar mis propios programas y los borradores de los artículos que escribo para este blog.
En este artículo, exploraré la posibilidad de que el uso de GitHub se extienda cada vez más allá del desarrollo de software en el futuro, convirtiéndose en un lugar para el intercambio abierto de conocimiento.
Generación de sitios Wiki por DeepWiki
Muchas herramientas de desarrollo de software que utilizan IA generativa están diseñadas para asistir las tareas de programación humana. Los humanos escriben los programas y la IA proporciona el soporte.
Por otro lado, está surgiendo un nuevo tipo de herramienta de desarrollo de software donde los humanos solo dan instrucciones, y la IA generativa asume la tarea de crear programas.
Devin es una de esas herramientas que se convirtió en pionera y captó la atención. Algunas personas incluso dijeron que introducir Devin era como añadir un programador más al equipo de desarrollo. Aunque todavía se dice que los ingenieros humanos deben proporcionar soporte detallado para que se utilice de manera efectiva, estos datos seguramente se recopilarán y se usarán para mejoras.
La era en la que los equipos de desarrollo de software, compuestos por un humano y programadores de IA como Devin como miembros del equipo, se conviertan en algo común, está a la vuelta de la esquina.
Cognition, el desarrollador de Devin, también ha lanzado un servicio llamado DeepWiki.
DeepWiki es un servicio que genera automáticamente un sitio wiki para cada proyecto de desarrollo de software en GitHub. Esto significa que una IA, similar a Devin, lee y analiza todos los programas y documentos relacionados de ese proyecto y crea todos los manuales y documentos de diseño.
Según se informa, Cognition creó sitios wiki para más de 50.000 proyectos de desarrollo de software públicos importantes en GitHub, de libre acceso para cualquiera, utilizando DeepWiki.
Dado que son proyectos públicos, no hay absolutamente ningún problema en hacerlo. Aunque los sitios wiki se pueden generar automáticamente, debe haber requerido que numerosas IAs generativas funcionaran a plena capacidad durante un largo período, y el costo debe haber sido considerable.
Al asumir estos costos, Cognition ha proporcionado un gran beneficio a un gran número de proyectos públicos, permitiéndoles obtener explicaciones y documentos de diseño de forma gratuita.
Si los datos estadísticos muestran que estos sitios wiki son útiles para cada proyecto público y tienen un efecto significativo en la mejora de la calidad y la productividad, entonces las empresas de desarrollo de software adoptarán DeepWiki para sus propios proyectos.
Cognition debe haber invertido en la generación de sitios wiki para un vasto número de proyectos públicos, creyendo que esto podría suceder. Esto demuestra la confianza de Cognition en DeepWiki. Y cuando se adopte DeepWiki, Devin le seguirá automáticamente, aumentando significativamente la probabilidad de una adopción generalizada de los programadores de IA.
GitHub como plataforma para compartir documentos
GitHub se ha convertido en un servicio web popular y un estándar de facto para compartir, coeditar y almacenar programas para el desarrollo de software de código abierto.
En los últimos años, sus funciones de gestión y seguridad para empresas se han mejorado, convirtiéndolo en una herramienta común en empresas avanzadas que desarrollan software.
Por esta razón, GitHub evoca fuertemente la imagen de un servicio web para almacenar y compartir programas. Sin embargo, en realidad, puede usarse para compartir, coeditar y almacenar diversos documentos y materiales, completamente ajenos a los programas.
Por lo tanto, no pocas personas usan GitHub para gestionar documentos que desean coeditar ampliamente. Estos pueden ser documentos relacionados con el software o completamente ajenos a él.
Además, los blogs y sitios web también son documentos que contienen un tipo de programa o que están estructurados y publicados por programas.
Debido a esto, no es raro que individuos y empresas almacenen el contenido de blogs y sitios web, junto con los programas que los hacen fáciles de ver y los programas para la generación automática de sitios, en conjunto como un único proyecto en GitHub.
También es posible convertir dichos blogs y sitios web en proyectos públicos en GitHub para coeditar su contenido.
Además, recientemente, la IA generativa no solo se utiliza para el desarrollo de software, sino que también se integra a menudo en el software.
En este caso, las oraciones de instrucción llamadas prompts, que dan instrucciones detalladas a la IA generativa, se incrustan dentro de los programas.
Estos prompts también pueden considerarse un tipo de documento.
Fábrica Intelectual
Aunque soy ingeniero de desarrollo de software, también escribo artículos para mi blog.
Si bien quiero que mucha gente los lea, es bastante difícil aumentar el número de lectores.
Por supuesto, se podría considerar crear artículos para captar la atención o contactar activamente a personas influyentes para pedir consejo, entre otros esfuerzos e ingenios.
Sin embargo, considerando mi personalidad y el esfuerzo y el estrés que implica, soy reacio a participar en una promoción agresiva. Además, dedicar tiempo a tales actividades restaría valor al núcleo de mi trabajo, que implica programar, contemplar ideas y documentarlas.
Por lo tanto, recientemente decidí probar una estrategia conocida como multimedia u omnicanal, que implica expandir el alcance de mis publicaciones de blog desarrollándolas en diversas formas de contenido.
Específicamente, esto incluye traducir artículos en japonés al inglés y publicarlos en sitios de blogs en inglés, y crear videos de presentación para explicar artículos y publicarlos en YouTube.
Además, aparte de publicar en servicios de blogs generales, también estoy considerando crear mi propio sitio de blog que liste y categorice mis publicaciones anteriores y enlace artículos relacionados.
Si tuviera que dedicar tiempo a crear esto cada vez que se escribe un nuevo artículo, sería contraproducente. Por lo tanto, todas las tareas, excepto la redacción del artículo inicial en japonés, se automatizan utilizando IA generativa. A esto lo llamo una fábrica intelectual.
Necesito desarrollar programas para implementar este mecanismo.
Actualmente, ya he creado programas que pueden automatizar completamente la traducción, la generación de videos de presentación y la carga a YouTube.
Ahora estoy en el proceso de crear programas básicos para categorizar y vincular publicaciones de blog existentes.
Una vez que eso esté completo, y cree un programa para generar mi propio sitio de blog y reflejarlo automáticamente en un servidor web, el concepto inicial de mi fábrica intelectual estará completo.
Fábrica intelectual en un sentido amplio
Los borradores de las publicaciones de mi blog, que sirven como materia prima para esta fábrica intelectual, también se gestionan como un proyecto de GitHub. Por ahora, son privados y no están disponibles públicamente, pero estoy considerando convertirlos en proyectos públicos junto con los programas de la fábrica intelectual en el futuro.
Y la categorización de las publicaciones del blog, la vinculación de artículos y la explicación de las publicaciones del blog transformadas en video, que estoy desarrollando actualmente, comparten el mismo concepto subyacente que DeepWiki.
Utilizando IA generativa, se producen diversos contenidos a partir de obras creativas originales como materia prima. Además, puede conectar información y conocimiento dentro de ellas, creando eficazmente una base de conocimiento.
La única diferencia es si la materia prima es un programa o una publicación de blog. Y para DeepWiki y mi fábrica intelectual impulsada por IA generativa, esa diferencia es casi insignificante.
En otras palabras, si el término "fábrica intelectual" se interpreta en un sentido general y amplio, no limitado a mi programa, entonces DeepWiki también es un tipo de fábrica intelectual.
Y lo que producen las fábricas intelectuales no se limita a artículos traducidos a otros idiomas, videos de presentación, sitios de blog creados por uno mismo o sitios wiki.
Probablemente podrán convertir el contenido a todos los medios y formatos imaginables, como videos cortos, tuits, cómics, animación, podcasts y libros electrónicos.
Además, el contenido dentro de estos medios y formatos también se puede diversificar para adaptarse al destinatario, como un soporte multilingüe más amplio, versiones para expertos o principiantes, y versiones para adultos o niños.
Además, incluso la generación bajo demanda de contenido personalizado es alcanzable.
GitHub como mina intelectual
Las materias primas para una fábrica intelectual pueden ubicarse fundamentalmente en cualquier lugar.
Sin embargo, considerando que GitHub se ha convertido en el estándar de facto para compartir, coeditar y almacenar programas de proyectos de código abierto, y que muchas personas, no solo yo, usan GitHub como ubicación de almacenamiento de documentos, se hace evidente que GitHub tiene el potencial de convertirse en una fuente principal de materias primas para las fábricas intelectuales.
En otras palabras, GitHub se convertirá en una mina intelectual compartida por la humanidad, suministrando materias primas a las fábricas intelectuales.
El término "compartido por la humanidad" aquí hace eco de la idea de que los proyectos de código abierto son un activo de software compartido por la humanidad.
La filosofía de código abierto que ha apoyado a GitHub también encajará bien con el concepto de documentos abiertos.
Además, podría surgir una cultura de gestión de información de derechos de autor y licencias para cada documento, similar a la de los programas. El contenido generado automáticamente a partir de documentos fuente puede asignarse fácilmente la misma licencia o cumplir con las reglas estipuladas por la licencia.
Desde la perspectiva del desarrollo de una fábrica intelectual, tener los documentos de materia prima centralizados en GitHub es ideal.
Esto ofrece dos beneficios: una mayor eficiencia de desarrollo al simplemente conectar GitHub con la fábrica intelectual, y la capacidad de demostrar eficazmente las funciones y el rendimiento de la propia fábrica intelectual utilizando documentos disponibles públicamente, de manera similar a DeepWiki.
En el futuro, a medida que se desarrollen varias fábricas intelectuales y puedan conectarse a GitHub, y a medida que más personas y empresas gestionen documentos en GitHub y los procesen con fábricas intelectuales, la posición de GitHub como mina intelectual debería establecerse firmemente.
Base de conocimiento pública compartida por la humanidad
Con GitHub en el centro como mina intelectual, y diversos contenidos y bases de conocimiento producidos por fábricas intelectuales, todo este ecosistema creará una base de conocimiento pública compartida por la humanidad.
Además, es una base de conocimiento dinámica y en tiempo real que se expandirá automáticamente a medida que aumente el número de documentos publicados en GitHub.
Si bien esta vasta y compleja base de conocimiento, que contiene un conocimiento inmenso, será útil para los humanos, será difícil extraer completamente su valor potencial.
Sin embargo, la IA podrá utilizar plenamente esta base de conocimiento pública, compartida por toda la humanidad.
Vetas de conocimiento público
Si se realiza un ecosistema de este tipo, diversa información pública convergerá naturalmente en GitHub.
Esto no se limitará a borradores de blogs personales o sitios web corporativos.
También se acumularán conocimientos y datos académicos, como artículos previos a la publicación e ideas de investigación, datos experimentales y resultados de encuestas.
Esto atraerá no solo a quienes deseen utilizar el conocimiento, las ideas y los datos en beneficio de toda la humanidad, sino también a quienes deseen difundir rápidamente sus descubrimientos y obtener reconocimiento.
Incluso para académicos e investigadores, muchos encontrarían valor en que la validez, novedad e impacto de su trabajo fueran verificados por IA, expresados a través de diversos contenidos y reconocidos de una manera que se viralice, sin tener que esperar el largo proceso de revisión por pares.
Alternativamente, si su trabajo capta la atención de otros investigadores o empresas de esta manera, lo que lleva a la investigación colaborativa o la financiación, también hay beneficios prácticos.
Además, es probable que haya un flujo de retorno del propio conocimiento de la IA.
La IA generativa adquiere grandes cantidades de conocimiento a través del preentrenamiento, pero no explora activamente conexiones inesperadas o estructuras similares entre ese vasto conocimiento durante el aprendizaje.
Lo mismo se aplica a los nuevos conocimientos que surgen al conectar diferentes piezas de conocimiento.
Por otro lado, al explicar tales similitudes y conexiones durante las conversaciones con una IA generativa preentrenada, esta puede evaluar su valor con bastante precisión.
Por lo tanto, al comparar y conectar aleatoria o exhaustivamente varias piezas de conocimiento e introducirlas en una IA generativa, es posible descubrir similitudes inesperadas y conexiones valiosas.
Por supuesto, dado que hay un número enorme de combinaciones, no es realista cubrirlas todas. Sin embargo, al optimizar y automatizar adecuadamente este proceso, es posible descubrir automáticamente conocimiento útil a partir del conocimiento existente.
Al lograr tal descubrimiento automático de conocimiento y almacenar el conocimiento descubierto en GitHub, parece posible repetir este ciclo indefinidamente.
De esta manera, existen numerosas vetas de conocimiento sin descubrir dentro de esta mina intelectual, y será posible excavarlas.
Conclusión
A medida que se establezca una base de conocimiento humano compartida, de facto, como GitHub, es probable que se utilice para el preentrenamiento de IA generativa y para la recuperación de conocimiento como RAG.
En ese escenario, GitHub en sí mismo funcionará como un cerebro gigantesco. Y la IA generativa compartirá este cerebro, distribuyendo y expandiendo el conocimiento mientras lo comparte.
El conocimiento adicionalmente registrado allí no solo incluirá registros de hechos, nuevos datos o clasificaciones. También puede incluir conocimiento catalítico que promueva el descubrimiento de otros conocimientos o nuevas combinaciones.
A este tipo de conocimiento con efecto catalítico lo llamo "cristales intelectuales" o "cristales de conocimiento". Esto incluye, por ejemplo, nuevos marcos de pensamiento.
Cuando se descubre o desarrolla un nuevo marco y se añade un cristal intelectual, su efecto catalítico permite diferentes combinaciones y estructuraciones del conocimiento que antes, lo que lleva al crecimiento de nuevo conocimiento.
Entre estos, puede haber otros cristales de conocimiento. Esto, a su vez, aumentará aún más el conocimiento.
Dicho conocimiento no es un descubrimiento científico, sino algo más cercano a la investigación matemática, el desarrollo de ingeniería o la invención. Por lo tanto, es conocimiento que crece puramente a través del pensamiento, en lugar de a través de nuevos hechos observacionales como el conocimiento científico.
Y GitHub como mina intelectual, junto con innumerables IAs generativas que lo utilizan, acelerará el crecimiento de dicho conocimiento.
El conocimiento descubierto uno tras otro a un ritmo que excede con creces la escala humana de descubrimiento será proporcionado en una forma que sea fácil de entender para nosotros por las fábricas de conocimiento.
De esta manera, el conocimiento que puede explorarse puramente a través del pensamiento será excavado rápidamente.