Está familiarizado com o GitHub, o serviço web que tem sido utilizado como plataforma de desenvolvimento colaborativo entre programadores de software de código aberto?
Nos últimos anos, a sua utilização como plataforma para trabalho colaborativo expandiu-se, não só para software de código aberto, mas também para o desenvolvimento de software empresarial e até para fins não relacionados com software.
Eu também utilizo o GitHub para gerir os meus próprios programas e os rascunhos dos artigos que escrevo para este blogue.
Neste artigo, explorarei a possibilidade de que a utilização do GitHub se estenda cada vez mais para além do desenvolvimento de software no futuro, tornando-se um local para a partilha aberta de conhecimento.
Geração de Sites Wiki pelo DeepWiki
Muitas ferramentas de desenvolvimento de software que utilizam IA generativa são concebidas para auxiliar tarefas de programação humana. Os humanos escrevem os programas e a IA fornece suporte.
Por outro lado, está a surgir um novo tipo de ferramenta de desenvolvimento de software em que os humanos apenas dão instruções, e a IA generativa assume a tarefa de criar programas.
Devin é uma dessas ferramentas que se tornou pioneira e que captou a atenção. Algumas pessoas chegaram a dizer que introduzir o Devin era como adicionar mais um programador à equipa de desenvolvimento. Embora ainda se diga que os engenheiros humanos precisam de fornecer suporte detalhado para que seja utilizado eficazmente, esses dados serão certamente recolhidos e utilizados para melhorias.
A era em que as equipas de desenvolvimento de software consistem num humano e em programadores de IA como o Devin, como membros da equipa, está mesmo ao virar da esquina.
A Cognition, a criadora do Devin, também lançou um serviço chamado DeepWiki.
O DeepWiki é um serviço que gera automaticamente um site wiki para cada projeto de desenvolvimento de software no GitHub. Isto significa que uma IA, semelhante ao Devin, lê e analisa todos os programas e documentos relacionados com esse projeto e cria todos os manuais e documentos de design.
A Cognition terá criado sites wiki para mais de 50.000 grandes projetos públicos de desenvolvimento de software no GitHub, que são livremente acessíveis a qualquer pessoa, utilizando o DeepWiki.
Uma vez que são projetos públicos, não há absolutamente nenhum problema em fazê-lo. Embora os sites wiki possam ser gerados automaticamente, deve ter exigido que inúmeras IAs generativas funcionassem em plena capacidade durante um longo período, e o custo deve ter sido considerável.
Ao suportar esses custos, a Cognition proporcionou um grande benefício a um vasto número de projetos públicos, permitindo-lhes obter explicações e documentos de design gratuitamente.
Se os dados estatísticos mostrarem que estes sites wiki são úteis para cada projeto público e têm um efeito significativo na melhoria da qualidade e da produtividade, então as empresas de desenvolvimento de software adotarão o DeepWiki para os seus próprios projetos.
A Cognition deve ter investido na geração de sites wiki para um vasto número de projetos públicos, acreditando que isso poderia acontecer. Isto demonstra a confiança da Cognition no DeepWiki. E quando o DeepWiki for adotado, o Devin seguirá automaticamente, aumentando significativamente a probabilidade de adoção generalizada de programadores de IA.
GitHub como Plataforma de Partilha de Documentos
O GitHub tornou-se um serviço web popular e o padrão de facto para partilhar, coeditar e armazenar programas para o desenvolvimento de software de código aberto.
Nos últimos anos, as suas funcionalidades de gestão e segurança para empresas foram aprimoradas, tornando-o uma ferramenta comum em empresas avançadas que desenvolvem software.
Por esta razão, o GitHub evoca fortemente a imagem de um serviço web para armazenar e partilhar programas. No entanto, na realidade, pode ser utilizado para partilhar, coeditar e armazenar vários documentos e materiais, completamente não relacionados com programas.
Portanto, não são poucas as pessoas que utilizam o GitHub para gerir documentos que desejam coeditar amplamente. Estes podem ser documentos relacionados com software ou totalmente não relacionados.
Além disso, blogs e websites são também documentos que contêm um tipo de programa ou são estruturados e publicados por programas.
Por esta razão, não é incomum que indivíduos e empresas armazenem o conteúdo de blogs e websites, juntamente com os programas que os tornam fáceis de visualizar e os programas para a geração automática de sites, como um único projeto no GitHub.
Também é possível tornar esses blogs e websites projetos públicos no GitHub para coedição do seu conteúdo.
Além disso, recentemente, a IA generativa não é apenas utilizada para o desenvolvimento de software, mas também frequentemente integrada em software.
Neste caso, as frases de instrução chamadas prompts, que dão instruções detalhadas à IA generativa, são incorporadas nos programas.
Estes prompts também podem ser considerados um tipo de documento.
Fábrica Intelectual
Embora seja um engenheiro de desenvolvimento de software, também escrevo artigos para o meu blogue.
Embora deseje que muitas pessoas os leiam, é bastante difícil aumentar o número de leitores.
Claro que se poderia considerar criar artigos para chamar a atenção ou contactar ativamente indivíduos influentes para obter conselhos, entre outros esforços e engenho.
No entanto, considerando a minha personalidade e o esforço e stress envolvidos, estou relutante em envolver-me em promoção agressiva. Além disso, gastar tempo em tais atividades desviaria do cerne do meu trabalho, que envolve programar, contemplar ideias e documentá-las.
Por isso, recentemente decidi experimentar uma estratégia conhecida como multimédia ou omnicanal, que envolve expandir o alcance das minhas publicações no blogue, desenvolvendo-as em várias formas de conteúdo.
Especificamente, isto inclui traduzir artigos japoneses para inglês e publicá-los em sites de blogues em inglês, e criar vídeos de apresentação para explicar artigos e publicá-los no YouTube.
Além disso, para além de publicar em serviços de blogues gerais, também estou a considerar criar o meu próprio site de blogue que liste e categorize as minhas publicações anteriores e ligue artigos relacionados.
Se eu tivesse de dedicar tempo a criar estes cada vez que um novo artigo é escrito, seria contraproducente. Portanto, todas as tarefas, exceto a escrita do artigo japonês inicial, são automatizadas utilizando IA generativa. Chamo a isto uma fábrica intelectual.
Preciso de desenvolver programas para implementar este mecanismo.
Atualmente, já criei programas que podem automatizar totalmente a tradução, a geração de vídeos de apresentação e o upload para o YouTube.
Estou agora em processo de criação de programas básicos para categorizar e ligar publicações de blogues existentes.
Uma vez concluído, e após criar um programa para gerar o meu próprio site de blogue e refleti-lo automaticamente num servidor web, o conceito inicial da minha fábrica intelectual estará completo.
Fábrica Intelectual em Sentido Amplo
Os rascunhos das minhas publicações de blogue, que servem como matéria-prima para esta fábrica intelectual, também são geridos como um projeto GitHub. Por enquanto, são privados e não estão publicamente disponíveis, mas estou a considerar torná-los projetos públicos juntamente com os programas da fábrica intelectual no futuro.
E a categorização das publicações de blogue, a ligação de artigos e a explicação das publicações de blogue transformadas em vídeo, que estou a desenvolver atualmente, partilham o mesmo conceito subjacente ao DeepWiki.
Utilizando IA generativa, vários conteúdos são produzidos a partir de obras criativas originais como matéria-prima. Além disso, pode ligar informações e conhecimentos dentro deles, criando eficazmente uma base de conhecimento.
A única diferença é se a matéria-prima é um programa ou uma publicação de blogue. E para o DeepWiki e a minha fábrica intelectual alimentada por IA generativa, essa diferença é quase insignificante.
Por outras palavras, se o termo "fábrica intelectual" for interpretado num sentido geral e mais amplo, não limitado ao meu programa, então o DeepWiki também é um tipo de fábrica intelectual.
E o que as fábricas intelectuais produzem não se limita a artigos traduzidos para outras línguas, vídeos de apresentação, sites de blogues auto-criados ou sites wiki.
Provavelmente serão capazes de converter conteúdo em todos os meios e formatos concebíveis, como vídeos curtos, tweets, banda desenhada, animação, podcasts e e-books.
Além disso, o conteúdo dentro desses meios e formatos também pode ser diversificado para se adequar ao recetor, como um suporte multilíngue mais abrangente, versões para especialistas ou iniciantes, e versões para adultos ou crianças.
Mais ainda, até a geração on-demand de conteúdo personalizado é alcançável.
GitHub como uma Mina Intelectual
As matérias-primas para uma fábrica intelectual podem, fundamentalmente, estar localizadas em qualquer lugar.
No entanto, considerando que o GitHub se tornou o padrão de facto para partilha, coedição e armazenamento de programas de projetos de código aberto, e que muitas pessoas, não apenas eu, utilizam o GitHub como local de armazenamento de documentos, torna-se evidente que o GitHub tem o potencial de se tornar uma fonte primária de matérias-primas para fábricas intelectuais.
Por outras palavras, o GitHub tornar-se-á uma mina intelectual partilhada pela humanidade, fornecendo matérias-primas a fábricas intelectuais.
O termo "partilhado pela humanidade" aqui ecoa a ideia de que os projetos de código aberto são um ativo de software partilhado pela humanidade.
A filosofia de código aberto que tem suportado o GitHub também se encaixará bem com o conceito de documentos abertos.
Além disso, uma cultura de gestão de informações de direitos de autor e licenças para cada documento, semelhante aos programas, poderá surgir. O conteúdo gerado automaticamente a partir de documentos de origem pode ser facilmente atribuído à mesma licença, ou cumprir as regras estipuladas pela licença.
Da perspetiva do desenvolvimento de uma fábrica intelectual, ter os documentos de matéria-prima centralizados no GitHub é ideal.
Isso oferece dois benefícios: maior eficiência de desenvolvimento, simplesmente conectando o GitHub à fábrica intelectual, e a capacidade de demonstrar eficazmente as funções e o desempenho da própria fábrica intelectual usando documentos publicamente disponíveis, semelhante ao DeepWiki.
No futuro, à medida que várias fábricas intelectuais forem desenvolvidas e se tornarem conectáveis ao GitHub, e à medida que mais pessoas e empresas gerirem documentos no GitHub e os processarem com fábricas intelectuais, a posição do GitHub como mina intelectual deverá ficar firmemente estabelecida.
Base de Conhecimento Público Partilhada pela Humanidade
Com o GitHub no centro, como uma mina intelectual, e diversos conteúdos e bases de conhecimento produzidos por fábricas intelectuais, todo este ecossistema criará uma base de conhecimento pública partilhada pela humanidade.
Além disso, é uma base de conhecimento dinâmica e em tempo real que se expandirá automaticamente à medida que o número de documentos publicados no GitHub aumentar.
Embora esta vasta e complexa base de conhecimento, contendo um conhecimento imenso, seja útil para os humanos, será difícil extrair totalmente o seu valor potencial.
No entanto, a IA será capaz de utilizar plenamente esta base de conhecimento pública, partilhada por toda a humanidade.
Veias de Conhecimento Público
Se tal ecossistema for concretizado, várias informações públicas convergirão naturalmente para o GitHub.
Isso não se limitará a rascunhos de blogs pessoais ou websites corporativos.
Perceções e dados académicos, como artigos pré-publicação e ideias de pesquisa, dados experimentais e resultados de inquéritos, também se acumularão.
Isto atrairá não só aqueles que desejam usar o conhecimento, ideias e dados para o benefício de toda a humanidade, mas também aqueles que desejam divulgar rapidamente as suas descobertas e obter reconhecimento.
Mesmo para estudiosos e pesquisadores, muitos encontrariam valor em ter a validade, novidade e impacto do seu trabalho verificados por IA, expressos através de vários conteúdos, e reconhecidos de uma forma viral, sem ter que esperar pelo longo processo de revisão por pares.
Alternativamente, se o seu trabalho chamar a atenção de outros pesquisadores ou empresas desta forma, levando a pesquisa colaborativa ou financiamento, também há benefícios práticos.
Além disso, é provável que haja um fluxo de retorno do próprio conhecimento da IA.
A IA generativa adquire vastas quantidades de conhecimento através do pré-treino, mas não explora ativamente conexões inesperadas ou estruturas semelhantes entre esse vasto conhecimento durante a aprendizagem.
O mesmo se aplica a novas perceções que surgem da conexão de diferentes peças de conhecimento.
Por outro lado, ao explicar tais semelhanças e conexões durante conversas com uma IA generativa pré-treinada, ela pode avaliar o seu valor com bastante precisão.
Portanto, ao comparar e conectar aleatória ou exaustivamente várias peças de conhecimento e inseri-las numa IA generativa, é possível descobrir semelhanças inesperadas e conexões valiosas.
É claro que, dado o número enorme de combinações, é irrealista cobrir todas elas. No entanto, ao otimizar e automatizar apropriadamente este processo, torna-se possível descobrir automaticamente conhecimento útil a partir do conhecimento existente.
Ao conseguir tal descoberta automática de conhecimento e armazenar o conhecimento descoberto no GitHub, parece possível repetir este ciclo indefinidamente.
Desta forma, inúmeras veias de conhecimento não descobertas existem dentro desta mina intelectual, e será possível escavá-las.
Conclusão
À medida que uma base de conhecimento humano partilhada e um padrão de facto como o GitHub se estabelecem, é provável que seja utilizada para o pré-treino de IA generativa e para a recuperação de conhecimento como o RAG.
Nesse cenário, o GitHub funcionará como um cérebro gigantesco. E a IA generativa partilhará este cérebro, distribuindo e expandindo o conhecimento enquanto o partilha.
O conhecimento adicionalmente registado aí não incluirá apenas registos de factos, novos dados ou classificações. Poderá também incluir conhecimento catalítico que promove a descoberta de outro conhecimento ou novas combinações.
Chamo a esse conhecimento com um efeito catalítico "cristais intelectuais" ou "cristais de conhecimento". Isto inclui, por exemplo, novos quadros para o pensamento.
Quando um quadro é recém-descoberto ou desenvolvido e um cristal intelectual é adicionado, o seu efeito catalítico permite diferentes combinações e estruturação do conhecimento do que antes, levando ao crescimento de novo conhecimento.
Entre estes, pode haver outros cristais de conhecimento. Isso, por sua vez, aumentará ainda mais o conhecimento.
Tal conhecimento não é uma descoberta científica, mas algo mais próximo da investigação matemática, do desenvolvimento de engenharia ou da invenção. Portanto, é conhecimento que cresce puramente através do pensamento, e não através de novos factos observacionais como o conhecimento científico.
E o GitHub como uma mina intelectual, juntamente com inúmeras IAs generativas que o utilizam, irá acelerar o crescimento desse conhecimento.
O conhecimento descoberto um após o outro, a um ritmo que excede em muito a escala humana de descoberta, será fornecido numa forma que nos seja fácil de entender pelas fábricas de conhecimento.
Desta forma, o conhecimento que pode ser explorado puramente através do pensamento será rapidamente escavado.