Bỏ qua đến nội dung
Bài viết này đã được dịch từ tiếng Nhật bằng AI
Đọc bằng tiếng Nhật
Bài viết này thuộc Miền Công Cộng (CC0). Hãy thoải mái sử dụng nó một cách tự do. CC0 1.0 Universal

GitHub như một mỏ tri thức

Bạn có quen thuộc với GitHub, dịch vụ web đã được sử dụng như một nền tảng phát triển cộng tác giữa các nhà phát triển phần mềm mã nguồn mở không?

Trong những năm gần đây, việc sử dụng nó như một nền tảng cho công việc cộng tác đã mở rộng, không chỉ cho phần mềm mã nguồn mở mà còn cho phát triển phần mềm của doanh nghiệp và thậm chí cho các mục đích không liên quan đến phần mềm.

Tôi cũng sử dụng GitHub để quản lý các chương trình của riêng mình và các bản nháp bài viết tôi viết cho blog này.

Trong bài viết này, tôi sẽ khám phá khả năng việc sử dụng GitHub sẽ ngày càng mở rộng ra ngoài phạm vi phát triển phần mềm trong tương lai, trở thành một nơi để chia sẻ kiến thức mở.

Tạo trang Wiki bằng DeepWiki

Nhiều công cụ phát triển phần mềm sử dụng AI tạo sinh được thiết kế để hỗ trợ các tác vụ lập trình của con người. Con người viết chương trình, và AI cung cấp hỗ trợ.

Mặt khác, một loại công cụ phát triển phần mềm mới đang nổi lên, trong đó con người chỉ đưa ra hướng dẫn, và AI tạo sinh sẽ đảm nhiệm công việc tạo ra chương trình.

Devin là một công cụ như vậy, đã trở thành người tiên phong và thu hút sự chú ý. Một số người thậm chí còn nói rằng việc giới thiệu Devin giống như thêm một lập trình viên nữa vào nhóm phát triển. Mặc dù vẫn còn nói rằng các kỹ sư con người cần cung cấp hỗ trợ chi tiết để nó được sử dụng hiệu quả, nhưng dữ liệu như vậy chắc chắn sẽ được thu thập và sử dụng để cải thiện.

Kỷ nguyên mà các nhóm phát triển phần mềm bao gồm một người và các lập trình viên AI như Devin trở thành thành viên nhóm là điều sắp xảy ra.

Cognition, nhà phát triển của Devin, cũng đã phát hành một dịch vụ có tên DeepWiki.

DeepWiki là một dịch vụ tự động tạo trang wiki cho mỗi dự án phát triển phần mềm trên GitHub. Điều này có nghĩa là một AI, tương tự như Devin, đọc và phân tích tất cả các chương trình và tài liệu liên quan của dự án đó và tạo tất cả các hướng dẫn sử dụng và tài liệu thiết kế.

Cognition được cho là đã tạo các trang wiki cho hơn 50.000 dự án phát triển phần mềm công khai lớn trên GitHub mà bất kỳ ai cũng có thể truy cập tự do, sử dụng DeepWiki.

Vì đây là các dự án công khai, hoàn toàn không có vấn đề gì khi làm như vậy. Mặc dù các trang wiki có thể được tạo tự động, nhưng chắc hẳn nó đã yêu cầu vô số AI tạo sinh phải chạy hết công suất trong một thời gian dài, và chi phí chắc hẳn là rất đáng kể.

Bằng cách chịu những chi phí này, Cognition đã mang lại lợi ích lớn cho một số lượng lớn các dự án công khai, cho phép họ nhận được các giải thích và tài liệu thiết kế miễn phí.

Nếu dữ liệu thống kê cho thấy các trang wiki này hữu ích cho mỗi dự án công khai và có tác động đáng kể đến việc cải thiện chất lượng và năng suất, thì các công ty phát triển phần mềm sẽ áp dụng DeepWiki cho các dự án của riêng họ.

Cognition chắc hẳn đã đầu tư vào việc tạo các trang wiki cho một số lượng lớn các dự án công khai, tin rằng điều này có thể xảy ra. Điều này thể hiện sự tự tin của Cognition vào DeepWiki. Và khi DeepWiki được áp dụng, Devin sẽ tự động theo sau, làm tăng đáng kể khả năng áp dụng rộng rãi các lập trình viên AI.

GitHub như một nền tảng chia sẻ tài liệu

GitHub đã trở thành một dịch vụ web phổ biến và là tiêu chuẩn thực tế để chia sẻ, đồng chỉnh sửa và lưu trữ các chương trình phát triển phần mềm mã nguồn mở.

Trong những năm gần đây, các tính năng quản lý và bảo mật dành cho doanh nghiệp đã được nâng cao, biến nó thành một công cụ phổ biến trong các công ty tiên tiến phát triển phần mềm.

Vì lý do này, GitHub gợi lên mạnh mẽ hình ảnh một dịch vụ web để lưu trữ và chia sẻ chương trình. Tuy nhiên, trên thực tế, nó có thể được sử dụng để chia sẻ, đồng chỉnh sửa và lưu trữ nhiều tài liệu và tài liệu khác nhau, hoàn toàn không liên quan đến chương trình.

Do đó, không ít người sử dụng GitHub để quản lý các tài liệu mà họ muốn đồng chỉnh sửa rộng rãi. Đó có thể là tài liệu liên quan đến phần mềm hoặc những tài liệu hoàn toàn không liên quan.

Hơn nữa, blog và trang web cũng là những tài liệu chứa một loại chương trình hoặc được cấu trúc và xuất bản bởi chương trình.

Vì điều này, không có gì lạ khi các cá nhân và công ty lưu trữ nội dung của blog và trang web, cùng với các chương trình giúp chúng dễ xem và các chương trình tạo trang tự động, cùng nhau như một dự án duy nhất trên GitHub.

Cũng có thể biến các blog và trang web như vậy thành các dự án công khai trên GitHub để đồng chỉnh sửa nội dung của chúng.

Hơn nữa, gần đây, AI tạo sinh không chỉ được sử dụng để phát triển phần mềm mà còn thường được tích hợp vào phần mềm.

Trong trường hợp này, các câu lệnh hướng dẫn được gọi là prompt, cung cấp hướng dẫn chi tiết cho AI tạo sinh, được nhúng trong các chương trình.

Những prompt này cũng có thể được coi là một loại tài liệu.

Nhà máy tri thức

Mặc dù tôi là một kỹ sư phát triển phần mềm, tôi cũng viết bài cho blog của mình.

Mặc dù tôi muốn nhiều người đọc chúng, nhưng khá khó để tăng số lượng độc giả.

Tất nhiên, người ta có thể xem xét việc tạo ra các bài viết để thu hút sự chú ý hoặc chủ động liên hệ với những cá nhân có ảnh hưởng để xin lời khuyên, cùng với các nỗ lực và sự khéo léo khác.

Tuy nhiên, xét đến tính cách của tôi và những nỗ lực cùng căng thẳng liên quan, tôi không muốn tham gia vào việc quảng bá mạnh mẽ. Hơn nữa, dành thời gian cho các hoạt động như vậy sẽ làm sao nhãng công việc cốt lõi của tôi, bao gồm lập trình, suy ngẫm ý tưởng và ghi lại chúng.

Do đó, gần đây tôi đã quyết định thử một chiến lược được gọi là đa phương tiện hoặc đa kênh, liên quan đến việc mở rộng phạm vi tiếp cận các bài đăng trên blog của tôi bằng cách phát triển chúng thành nhiều dạng nội dung khác nhau.

Cụ thể, điều này bao gồm việc dịch các bài viết tiếng Nhật sang tiếng Anh và đăng chúng trên các trang blog tiếng Anh, cũng như tạo video thuyết trình để giải thích các bài viết và xuất bản chúng trên YouTube.

Hơn nữa, ngoài việc xuất bản trên các dịch vụ blog chung, tôi cũng đang xem xét việc tạo trang blog riêng của mình để liệt kê và phân loại các bài đăng blog cũ của tôi và liên kết các bài viết liên quan.

Nếu tôi phải dành thời gian tạo ra những thứ này mỗi khi một bài viết mới được viết, điều đó sẽ phản tác dụng. Do đó, tất cả các tác vụ khác ngoài việc viết bài viết tiếng Nhật ban đầu đều được tự động hóa bằng cách sử dụng AI tạo sinh. Tôi gọi đây là một nhà máy tri thức.

Tôi cần phát triển các chương trình để triển khai cơ chế này.

Hiện tại, tôi đã tạo ra các chương trình có thể tự động hoàn toàn việc dịch thuật, tạo video thuyết trình và tải lên YouTube.

Tôi hiện đang trong quá trình tạo các chương trình cơ bản để phân loại và liên kết các bài đăng blog hiện có.

Khi điều đó hoàn tất, và tôi tạo một chương trình để tạo trang blog của riêng mình và tự động phản ánh nó trên một máy chủ web, khái niệm ban đầu về nhà máy tri thức của tôi sẽ hoàn chỉnh.

Nhà máy tri thức theo nghĩa rộng

Các bản nháp bài đăng blog của tôi, đóng vai trò là nguyên liệu thô cho nhà máy tri thức này, cũng được quản lý dưới dạng một dự án GitHub. Hiện tại, chúng là riêng tư và không công khai, nhưng tôi đang xem xét việc biến chúng thành các dự án công khai cùng với các chương trình nhà máy tri thức trong tương lai.

Và việc phân loại các bài đăng blog, liên kết các bài viết và giải thích các bài đăng blog đã chuyển đổi thành video, mà tôi hiện đang phát triển, chia sẻ cùng một khái niệm cơ bản với DeepWiki.

Sử dụng AI tạo sinh, nhiều nội dung khác nhau được tạo ra từ các tác phẩm sáng tạo gốc làm nguyên liệu thô. Ngoài ra, nó có thể kết nối thông tin và kiến thức trong đó, tạo ra một cơ sở tri thức một cách hiệu quả.

Sự khác biệt duy nhất là liệu nguyên liệu thô là một chương trình hay một bài đăng blog. Và đối với DeepWiki và nhà máy tri thức của tôi được hỗ trợ bởi AI tạo sinh, sự khác biệt đó gần như không có ý nghĩa.

Nói cách khác, nếu thuật ngữ "nhà máy tri thức" được hiểu theo nghĩa rộng hơn, không giới hạn trong chương trình của tôi, thì DeepWiki cũng là một loại nhà máy tri thức.

Và những gì các nhà máy tri thức sản xuất không chỉ giới hạn ở các bài viết được dịch sang các ngôn ngữ khác, video thuyết trình, các trang blog tự làm hoặc các trang wiki.

Chúng có thể sẽ có khả năng chuyển đổi nội dung sang mọi phương tiện và định dạng có thể tưởng tượng được, chẳng hạn như video ngắn, tweet, truyện tranh, hoạt hình, podcast và sách điện tử.

Hơn nữa, nội dung trong các phương tiện và định dạng này cũng có thể được đa dạng hóa để phù hợp với người nhận, chẳng hạn như hỗ trợ đa ngôn ngữ rộng hơn, phiên bản dành cho chuyên gia hoặc người mới bắt đầu, và phiên bản dành cho người lớn hoặc trẻ em.

Hơn nữa, ngay cả việc tạo nội dung tùy chỉnh theo yêu cầu cũng có thể thực hiện được.

GitHub như một Mỏ Tri thức

Nguyên liệu thô cho một nhà máy tri thức về cơ bản có thể được đặt ở bất cứ đâu.

Tuy nhiên, xét rằng GitHub đã trở thành tiêu chuẩn thực tế để chia sẻ, đồng chỉnh sửa và lưu trữ các chương trình dự án mã nguồn mở, và rằng nhiều người, không chỉ riêng tôi, sử dụng GitHub làm nơi lưu trữ tài liệu, rõ ràng là GitHub có tiềm năng trở thành nguồn nguyên liệu chính cho các nhà máy tri thức.

Nói cách khác, GitHub sẽ trở thành một mỏ tri thức chung của nhân loại, cung cấp nguyên liệu thô cho các nhà máy tri thức.

Thuật ngữ "được nhân loại chia sẻ" ở đây lặp lại ý tưởng rằng các dự án mã nguồn mở là tài sản phần mềm chung của nhân loại.

Triết lý mã nguồn mở đã hỗ trợ GitHub cũng sẽ phù hợp với khái niệm tài liệu mở.

Hơn nữa, một văn hóa quản lý thông tin bản quyền và giấy phép cho mỗi tài liệu, tương tự như chương trình, có thể xuất hiện. Nội dung được tạo tự động từ tài liệu nguồn có thể dễ dàng được gán cùng một giấy phép, hoặc tuân thủ các quy tắc được quy định bởi giấy phép.

Từ góc độ phát triển một nhà máy tri thức, việc tập trung các tài liệu nguyên liệu thô trên GitHub là lý tưởng.

Điều này mang lại hai lợi ích: cải thiện hiệu quả phát triển bằng cách đơn giản kết nối GitHub với nhà máy tri thức, và khả năng chứng minh hiệu quả các chức năng và hiệu suất của nhà máy tri thức của mình bằng cách sử dụng các tài liệu công khai, tương tự như DeepWiki.

Trong tương lai, khi các nhà máy tri thức khác nhau được phát triển và trở nên có thể kết nối với GitHub, và khi nhiều người và công ty quản lý tài liệu trên GitHub và xử lý chúng bằng các nhà máy tri thức, vị trí của GitHub như một mỏ tri thức sẽ được thiết lập vững chắc.

Cơ sở kiến thức công cộng được nhân loại chia sẻ

Với GitHub làm trung tâm như một mỏ tri thức, và các nội dung cùng cơ sở kiến thức đa dạng được sản xuất bởi các nhà máy tri thức, toàn bộ hệ sinh thái này sẽ tạo ra một cơ sở kiến thức công cộng được nhân loại chia sẻ.

Hơn nữa, đó là một cơ sở kiến thức động và theo thời gian thực sẽ tự động mở rộng khi số lượng tài liệu được xuất bản trên GitHub tăng lên.

Trong khi cơ sở kiến thức rộng lớn và phức tạp này, chứa đựng lượng tri thức khổng lồ, sẽ hữu ích cho con người, việc khai thác hết giá trị tiềm năng của nó sẽ rất khó khăn.

Tuy nhiên, AI sẽ có thể tận dụng triệt để cơ sở kiến thức công cộng này, được chia sẻ bởi toàn nhân loại.

Những mạch tri thức công cộng

Nếu một hệ sinh thái như vậy được hiện thực hóa, nhiều thông tin công khai khác nhau sẽ tự nhiên hội tụ trên GitHub.

Điều này sẽ không chỉ giới hạn ở các bản nháp blog cá nhân hay trang web doanh nghiệp.

Các hiểu biết và dữ liệu học thuật, chẳng hạn như các bài báo chưa xuất bản và ý tưởng nghiên cứu, dữ liệu thử nghiệm và kết quả khảo sát, cũng sẽ tích lũy.

Điều này sẽ thu hút không chỉ những người muốn sử dụng kiến thức, ý tưởng và dữ liệu vì lợi ích của toàn nhân loại, mà còn cả những người muốn nhanh chóng phổ biến những khám phá của mình và được công nhận.

Ngay cả đối với các học giả và nhà nghiên cứu, nhiều người sẽ thấy có giá trị khi công trình của họ được AI xác minh tính hợp lệ, tính mới và tác động, được thể hiện qua nhiều nội dung khác nhau và được công nhận theo cách lan truyền rộng rãi, mà không phải chờ đợi quá trình phản biện dài dòng.

Ngoài ra, nếu công trình của họ thu hút sự chú ý của các nhà nghiên cứu hoặc công ty khác theo cách này, dẫn đến nghiên cứu hợp tác hoặc tài trợ, thì cũng có những lợi ích thiết thực.

Ngoài ra, cũng có khả năng có một dòng tri thức riêng của AI quay trở lại.

AI tạo sinh thu thập lượng kiến thức khổng lồ thông qua quá trình tiền huấn luyện, nhưng nó không chủ động khám phá các kết nối bất ngờ hoặc cấu trúc tương tự giữa lượng kiến thức khổng lồ đó trong quá trình học.

Điều tương tự cũng áp dụng cho những hiểu biết mới xuất hiện từ việc kết nối các mảnh kiến thức khác nhau.

Mặt khác, khi giải thích những điểm tương đồng và kết nối như vậy trong các cuộc trò chuyện với một AI tạo sinh đã được tiền huấn luyện, nó có thể đánh giá khá chính xác giá trị của chúng.

Do đó, bằng cách so sánh và kết nối ngẫu nhiên hoặc toàn diện các mảnh kiến thức khác nhau và đưa chúng vào một AI tạo sinh, có thể khám phá ra những điểm tương đồng bất ngờ và những kết nối có giá trị.

Tất nhiên, vì có vô số sự kết hợp, việc bao quát tất cả là không thực tế. Tuy nhiên, bằng cách hợp lý hóa và tự động hóa quy trình này một cách thích hợp, có thể tự động khám phá kiến thức hữu ích từ kiến thức hiện có.

Bằng cách đạt được việc khám phá kiến thức tự động như vậy và lưu trữ kiến thức đã khám phá trên GitHub, có vẻ như có thể lặp lại vòng lặp này vô thời hạn.

Bằng cách này, vô số mạch tri thức chưa được khám phá tồn tại trong mỏ tri thức này, và sẽ có thể khai thác chúng.

Kết luận

Khi một cơ sở kiến thức chung của nhân loại, đạt tiêu chuẩn thực tế như GitHub được thiết lập, nó có thể sẽ được sử dụng để tiền huấn luyện AI tạo sinh và để truy xuất kiến thức như RAG.

Trong kịch bản đó, bản thân GitHub sẽ hoạt động như một bộ não khổng lồ. Và AI tạo sinh sẽ chia sẻ bộ não này, phân phối và mở rộng kiến thức đồng thời chia sẻ nó.

Kiến thức được ghi lại thêm ở đó sẽ không chỉ bao gồm các ghi chép về sự kiện, dữ liệu mới hoặc phân loại. Nó cũng có thể bao gồm kiến thức xúc tác thúc đẩy việc khám phá các kiến thức khác hoặc các kết hợp mới.

Tôi gọi những kiến thức có tác dụng xúc tác như vậy là "tinh thể trí tuệ" hoặc "tinh thể tri thức". Điều này bao gồm, ví dụ, các khuôn khổ tư duy mới.

Khi một khuôn khổ được khám phá hoặc phát triển mới và một tinh thể trí tuệ được thêm vào, tác dụng xúc tác của nó cho phép các kết hợp và cấu trúc kiến thức khác so với trước đây, dẫn đến sự phát triển của kiến thức mới.

Trong số này, có thể có các tinh thể tri thức khác. Điều này, đến lượt nó, sẽ tiếp tục gia tăng kiến thức.

Kiến thức như vậy không phải là một khám phá khoa học mà gần với sự tìm tòi toán học, phát triển kỹ thuật hoặc phát minh hơn. Do đó, đó là kiến thức phát triển thuần túy thông qua tư duy, chứ không phải thông qua các sự kiện quan sát mới như kiến thức khoa học.

Và GitHub với tư cách là một mỏ tri thức, cùng với vô số AI tạo sinh sử dụng nó, sẽ đẩy nhanh sự phát triển của kiến thức như vậy.

Kiến thức được khám phá liên tiếp với tốc độ vượt xa quy mô khám phá của con người sẽ được cung cấp dưới dạng dễ hiểu cho chúng ta bởi các nhà máy tri thức.

Bằng cách này, kiến thức có thể được khám phá thuần túy thông qua tư duy sẽ được khai quật nhanh chóng.