오픈소스 소프트웨어 개발자들이 공동 개발 플랫폼으로 사용해온 웹 서비스인 GitHub에 대해 알고 계신가요?
최근 몇 년 동안 GitHub는 오픈소스 소프트웨어를 넘어 기업의 소프트웨어 개발 및 비(非)소프트웨어 관련 애플리케이션에 이르기까지 협업 작업 공간으로서 그 활용이 확대되고 있습니다.
저 또한 개인적으로 만든 프로그램과 이 블로그에 쓰는 글의 초고를 관리하는 데 GitHub를 사용하고 있습니다.
이 글에서는 GitHub의 활용이 앞으로 소프트웨어 영역을 넘어 점차 개방형 지식 공유의 장으로 확장될 가능성에 대해 탐구해보고자 합니다.
DeepWiki를 통한 위키 사이트 생성
생성형 AI를 활용하는 소프트웨어 개발 도구 중 상당수는 인간 프로그래머를 돕는 보조 도구입니다. 인간이 프로그램을 작성하면 AI가 이를 지원하는 방식이죠.
하지만 인간은 지시만 내리고, 프로그램 작성 작업은 생성형 AI가 전담하는 새로운 유형의 소프트웨어 개발 도구도 등장하고 있습니다.
그 선두주자로 주목받은 Devin이라는 도구가 있습니다. 어떤 이들은 Devin을 도입하는 것이 개발팀에 프로그래머 한 명을 추가하는 것과 같다고 말하기도 했습니다. 아직은 인간 엔지니어의 세심한 지원이 있어야 제대로 활용할 수 있다고 하지만, 그러한 데이터도 수집되어 개선될 것입니다.
개발팀이 인간 한 명과 Devin과 같은 AI 프로그래머들로 구성되는 시대가 곧 도래할 것입니다.
Devin 개발사인 Cognition은 DeepWiki라는 서비스도 출시했습니다.
DeepWiki는 GitHub의 각 소프트웨어 개발 프로젝트별로 위키 사이트를 자동 생성해주는 서비스입니다. 이는 Devin과 같은 AI가 해당 프로젝트의 모든 프로그램과 관련 문서를 읽고 분석하여 설명서와 설계 사양을 모두 작성해준다는 것을 의미합니다.
Cognition은 GitHub에서 누구나 자유롭게 접근할 수 있는 주요 공개 소프트웨어 개발 프로젝트 중 상위 5만 개 이상에 대해 DeepWiki로 위키 사이트를 만들었다고 합니다.
이는 공개 프로젝트이므로 그렇게 하는 데 전혀 문제가 없습니다. 위키 사이트를 자동 생성할 수 있다고는 하지만, 이를 위해 수많은 생성형 AI를 장기간 풀가동했을 것이며, 상당한 비용이 들었을 것입니다.
Cognition이 이러한 비용을 부담함으로써, 수많은 공개 프로젝트가 설명서와 설계 사양을 무료로 얻는 혜택을 받았습니다.
만약 이 위키 사이트들이 공개 프로젝트에 유용하고 품질 및 생산성 향상에 큰 효과가 있었다는 통계 데이터가 확보된다면, 소프트웨어 개발 기업들은 DeepWiki를 자체 프로젝트에 채택하게 될 것입니다.
Cognition은 이러한 일이 일어날 것이라고 믿고 방대한 공개 프로젝트의 위키 사이트 생성에 투자했을 것입니다. 여기서 DeepWiki에 대한 Cognition의 자신감을 엿볼 수 있습니다. 그리고 DeepWiki가 채택되면 Devin도 자동으로 따라오게 되므로, AI 프로그래머의 대중화도 급격히 가속화될 가능성이 높아집니다.
문서 공유 플랫폼으로서의 GitHub
GitHub는 오픈소스 소프트웨어 개발을 위한 프로그램 공유, 공동 편집, 보관을 위한 장소로 인기를 얻으며 사실상의 표준 웹 서비스가 되었습니다.
최근에는 기업용 관리 및 보안 기능이 강화되어, 선진 소프트웨어 개발 기업들에서도 보편적으로 사용되고 있습니다.
이 때문에 GitHub는 주로 프로그램 저장 및 공유를 위한 웹 서비스라는 이미지가 강하지만, 실제로는 프로그램과 무관하게 다양한 문서와 자료를 공유, 공동 편집, 보관할 수 있습니다.
이러한 이유로, 폭넓게 공동 편집하고 싶은 문서를 GitHub로 관리하는 사람들도 적지 않습니다. 이 문서들은 소프트웨어와 관련된 것일 수도 있고, 전혀 무관한 문서일 수도 있습니다.
더 나아가, 블로그나 웹사이트 또한 일종의 프로그램을 포함하거나, 프로그램에 의해 구조화되어 공개될 수 있는 문서입니다.
따라서 개인이나 기업이 블로그나 웹사이트 콘텐츠와 더불어, 이들을 보기 좋게 만들거나 사이트를 자동 생성하기 위한 프로그램들을 하나의 GitHub 프로젝트로 묶어 보관하는 방식도 드물지 않습니다.
이러한 블로그나 웹사이트의 내용을 공동 편집하기 위해 GitHub 공개 프로젝트로 만드는 것도 가능합니다.
또한, 최근에는 생성형 AI를 소프트웨어 개발에 활용하는 것 외에, 생성형 AI 기능을 소프트웨어에 직접 내장하는 경우가 많아지고 있습니다.
이러한 경우, 생성형 AI에 세부적인 지시를 내리기 위한 프롬프트라는 지시문이 프로그램 안에 포함됩니다.
이러한 프롬프트 역시 일종의 문서라고 볼 수 있습니다.
지적 공장
저는 소프트웨어 엔지니어이지만, 블로그에 글도 씁니다.
많은 사람들이 제 글을 읽어주기를 바라지만, 독자 수를 늘리는 것은 꽤 어려운 일입니다.
물론, 화제가 될 만한 글을 작성하거나, 영향력 있는 사람들에게 직접 연락하여 조언을 구하는 등 여러 가지 노력과 아이디어를 시도해 볼 수 있습니다.
하지만 제 성격과 그에 따르는 노력 및 정신적 부담을 고려하면, 적극적인 홍보는 내키지 않습니다. 게다가 그러한 활동에 시간을 할애하면, 프로그램을 만들거나, 사색하거나, 문서를 작성하는 등 제 활동의 핵심 부분에 시간을 쓸 수 없게 됩니다.
그래서 저는 최근 블로그 글의 도달 범위를 넓히기 위해, 다양한 콘텐츠 형식으로 확장하는 이른바 '멀티미디어' 또는 '옴니채널' 전략을 시도하기로 했습니다.
구체적으로는 일본어 기사를 영어로 번역하여 영어 블로그 사이트에 게시하고, 기사를 설명하는 프레젠테이션 영상을 제작하여 유튜브에 공개하는 것 등입니다.
나아가, 일반적인 블로그 서비스에 게시하는 것을 넘어, 제가 직접 과거 블로그 기사를 목록화하고 카테고리별로 인덱싱하며, 관련 기사를 연결하는 블로그 사이트를 만들 계획도 가지고 있습니다.
새로운 글이 추가될 때마다 이 모든 것을 수작업으로 한다면 본말이 전도될 것입니다. 따라서 저는 최초의 일본어 글을 작성하는 것 외의 모든 작업을 생성형 AI를 사용하여 자동화합니다. 저는 이것을 지적 공장이라고 부릅니다.
이 시스템을 구현하기 위한 프로그램을 개발해야 합니다.
현재 번역, 프레젠테이션 영상 생성, 유튜브 업로드까지 모두 자동화할 수 있는 프로그램은 이미 완성된 상태입니다.
지금은 기존 블로그 글을 카테고리별로 분류하고 서로 연결하기 위한 기본적인 프로그램을 만들고 있습니다.
그것이 완성되고, 맞춤형 블로그 사이트를 생성하여 웹 서버에 자동 배포하는 프로그램을 만들면, 제 지적 공장의 초기 구상은 일단락될 것입니다.
광의의 지적 공장
저의 블로그 글 초고들은 이 지적 공장의 원재료가 되며, 이 또한 GitHub 프로젝트로 관리됩니다. 현재는 비공개 프로젝트로 외부에 공개하고 있지 않지만, 언젠가 지적 공장의 프로그램들과 함께 공개 프로젝트로 전환하는 것도 고려하고 있습니다.
더 나아가, 현재 제가 개발 중인 블로그 글 분류, 글 간 연결, 그리고 블로그 글 영상 설명은 DeepWiki와 근본적으로 같은 개념을 공유합니다.
생성형 AI를 사용하여 원본 창작물을 원재료로 삼아 다양한 콘텐츠를 생산합니다. 이와 더불어 그 안에 있는 정보나 지식들을 연결하여 일종의 지식 기반을 구축할 수도 있습니다.
단지 원재료가 프로그램이냐 블로그 글이냐의 차이일 뿐입니다. 그리고 생성형 AI 기반의 DeepWiki와 저의 지적 공장에게 이 차이는 거의 의미가 없습니다.
다시 말해, '지적 공장'이라는 용어를 저의 특정 프로그램에 국한하지 않고 일반적이고 넓은 의미로 해석한다면, DeepWiki 또한 일종의 지적 공장입니다.
또한 지적 공장이 생산하는 것은 다른 언어로 번역된 글, 프레젠테이션 영상, 자체 제작 블로그 및 위키 사이트에 국한되지 않습니다.
짧은 영상, 트윗, 만화 및 애니메이션, 팟캐스트, 전자책 등 상상할 수 있는 모든 매체와 형식으로 콘텐츠를 변환할 수 있을 것입니다.
더 나아가, 이러한 매체와 형식 내의 콘텐츠도 광범위한 다국어화, 전문가용 또는 초보자용, 성인용 또는 어린이용과 같이 수용자에 맞춰 다양화하는 것이 가능합니다.
궁극적으로는 맞춤형 콘텐츠의 온디맨드(on-demand) 생성까지도 실현 가능해질 것입니다.
지적 광산으로서의 GitHub
지적 공장의 원재료는 원칙적으로 어디에든 보관할 수 있습니다.
하지만 GitHub가 오픈소스 프로젝트의 프로그램 공유, 공동 편집, 저장에 있어 사실상의 표준이 되었고, 저뿐만 아니라 다양한 사람들이 GitHub를 문서 저장 공간으로 활용하고 있다는 점을 고려하면, GitHub가 지적 공장의 주요 원재료 공급원이 될 가능성이 분명해집니다.
즉, GitHub는 인류가 공유하는 지적 광산이 되어 지적 공장에 원재료를 공급하게 될 것입니다.
여기서 '인류가 공유하는'이라는 표현을 사용한 것은 오픈소스 프로젝트가 인류 공동의 소프트웨어 자산이라는 생각과 맥락을 같이합니다.
GitHub를 지탱해 온 오픈소스 철학은 '오픈 문서'라는 개념과도 잘 맞아떨어질 것입니다.
더 나아가, 프로그램과 마찬가지로 문서별로 저작권 정보와 라이선스를 관리하는 문화도 생겨날 수 있습니다. 원본 문서에서 자동 생성된 콘텐츠에는 동일한 라이선스를 부여하거나, 라이선스에 명시된 규칙을 쉽게 준수할 수 있습니다.
지적 공장을 구축하는 입장에서도 원재료 문서가 GitHub에 집중되는 것은 이상적입니다.
이는 GitHub와 지적 공장을 연결하기만 하면 되므로 개발 효율성이 높아진다는 이점과, DeepWiki처럼 공개된 문서에 대해 자체 제작한 지적 공장의 기능과 성능을 효과적으로 시연할 수 있다는 두 가지 측면의 장점을 제공합니다.
앞으로 다양한 지적 공장들이 개발되어 GitHub와 연결되고, 더 많은 개인과 기업이 GitHub에서 문서를 관리하며 지적 공장에서 가공하게 되면, GitHub의 지적 광산으로서의 입지는 더욱 확고해질 것입니다.
인류 공유의 공개 지식 베이스
GitHub가 지적 광산으로서 핵심 역할을 하고, 지적 공장이 다양한 콘텐츠와 지식 베이스를 생산하면서, 이 전체 생태계는 인류가 공유하는 공개 지식 베이스를 만들어낼 것입니다.
더 나아가, 이는 GitHub에 공개되는 문서 수가 증가함에 따라 자동으로 확장되는 동적이고 실시간적인 지식 베이스가 될 것입니다.
방대한 지식을 포함하는 이 복잡하고 거대한 지식 베이스는 인간에게 유용하겠지만, 그 잠재적 가치를 온전히 끌어내는 것은 우리에게 어려울 수 있습니다.
하지만 AI는 이 인류 공유의 공개 지식 베이스를 최대한으로 활용할 수 있을 것입니다.
공개 지식의 광맥
이러한 생태계가 실현되면 다양한 공개 정보들이 자연스럽게 GitHub로 모여들 것입니다.
이는 개인 블로그나 기업 웹사이트의 초고에만 국한되지 않을 것입니다.
심사 전 논문이나 연구 아이디어, 실험 데이터, 설문조사 결과와 같은 학술적 통찰과 데이터도 그곳에 모일 것입니다.
이는 인류 전체의 이익을 위해 지식, 아이디어, 데이터를 기여하고자 하는 사람들뿐만 아니라, 발견을 신속하게 세상에 알려 명성을 얻고자 하는 사람들도 끌어들일 것입니다.
학자나 연구자들조차도 길고 시간이 많이 소요되는 논문 심사 과정을 기다리는 대신, AI에 의해 유효성, 참신성, 영향력을 검증받고 다양한 콘텐츠 형식으로 표현되어 '바이럴'을 통해 인정받는 것에 가치를 느낄 수 있을 것입니다.
또는 이러한 방식으로 다른 연구자나 기업의 주목을 받아 공동 연구나 자금 지원을 얻을 수 있다면 실질적인 이점도 있습니다.
또한 AI 자체의 지식 재순환도 있을 것입니다.
생성형 AI는 사전 학습을 통해 방대한 지식을 습득하지만, 그 방대한 지식들 사이의 예상치 못한 연결이나 유사한 구조를 적극적으로 탐색하며 학습하지는 않습니다.
서로 다른 지식들을 연결함으로써 나타나는 새로운 통찰력에 대해서도 마찬가지입니다.
반면에 사전 학습된 생성형 AI와 이러한 유사점과 연결점에 대해 논의할 때, AI는 그 가치를 상당히 정확하게 평가할 수 있습니다.
따라서 다양한 지식 조각들을 생성형 AI에 입력하여 무작위로 또는 전체적으로 비교함으로써, 예상치 못한 유사점과 가치 있는 연결점을 발견하는 것이 가능합니다.
물론 조합의 수가 방대하므로 모든 것을 망라하는 것은 비현실적입니다. 하지만 이 과정을 적절히 간소화하고 자동화함으로써 기존 지식 내에서 유용한 지식을 자동으로 발굴하는 것이 가능해집니다.
이러한 자동 지식 발견을 달성하고 발견된 지식을 GitHub에 저장함으로써 이 순환은 끊임없이 지속될 수 있을 것으로 보입니다.
이처럼 지적 광산 안에는 수많은 미발견 광맥이 존재하며, 이를 발굴하는 것이 가능해질 것입니다.
결론
이러한 방식으로 GitHub와 같은 사실상의 표준인 인류 공유 지식 베이스가 형성되면, 생성형 AI의 사전 학습 및 RAG와 같은 지식 검색 메커니즘에 활용될 가능성이 높습니다.
이러한 시나리오에서 GitHub 자체는 거대한 대뇌와 같은 역할을 할 것입니다. 생성형 AI는 이 대뇌를 공유하며 지식을 분산하고 확장해 나갈 것입니다.
그곳에 추가적으로 기록되는 지식은 단순히 사실 기록이나 새로운 데이터, 또는 분류학 같은 것에만 그치지 않을 것입니다. 다른 지식의 발견과 새로운 조합을 촉진하는 촉매 역할을 하는 지식도 포함될 것입니다.
저는 이러한 촉매 작용을 하는 지식을 지적 결정체 또는 지식의 결정이라고 부릅니다. 여기에는 예를 들어 새로운 사고의 틀, 즉 프레임워크가 포함됩니다.
프레임워크가 새롭게 발견되거나 개발되어 지적 결정체가 추가되면, 그 촉매 작용으로 인해 이전에는 불가능했던 새로운 지식의 조합과 구조화가 가능해지면서 새로운 지식이 증가하게 됩니다.
때로는 이러한 지식 속에 또 다른 지적 결정체가 포함되어 있어, 다시 지식을 증폭시키는 작용을 미치기도 합니다.
이러한 종류의 지식은 과학적 발견보다는 수학적 탐구, 공학적 개발 또는 발명에 더 가깝습니다. 따라서 새로운 관찰적 사실에 의해서가 아니라, 순전히 사고를 통해 성장하는 지식입니다.
그리고 지적 광산으로서의 GitHub는 이를 활용하는 수많은 생성형 AI와 함께 이러한 지식의 성장을 가속화할 것입니다.
인간의 발견 속도를 훨씬 뛰어넘는 속도로 빠르게 발견되는 이 지식은 지적 공장을 통해 우리가 이해하기 쉬운 형태로 제공될 것입니다.
이러한 방식으로 순전히 사고를 통해 탐구할 수 있는 지식은 급속도로 발굴될 것입니다.