Bạn có quen thuộc với GitHub không? Đây là một dịch vụ web đã được các nhà phát triển phần mềm mã nguồn mở sử dụng như một nền tảng phát triển hợp tác.
Trong những năm gần đây, việc sử dụng GitHub như một không gian làm việc cộng tác đã mở rộng ra ngoài phần mềm mã nguồn mở, bao gồm cả việc phát triển phần mềm của doanh nghiệp và thậm chí các ứng dụng không liên quan đến phần mềm.
Tôi cũng sử dụng GitHub để quản lý các chương trình của mình và các bản nháp bài viết tôi viết cho blog này.
Trong bài viết này, tôi sẽ khám phá khả năng việc sử dụng GitHub sẽ ngày càng mở rộng vượt ra ngoài lĩnh vực phần mềm, trở thành một không gian chung cho tri thức mở.
Tạo trang Wiki bằng DeepWiki
Nhiều công cụ phát triển phần mềm sử dụng AI tạo sinh được thiết kế để hỗ trợ lập trình viên con người. Trong các công cụ này, con người viết chương trình, và AI cung cấp hỗ trợ.
Tuy nhiên, một loại công cụ phát triển phần mềm mới đang nổi lên, trong đó con người chỉ cần đưa ra hướng dẫn, và AI tạo sinh sẽ đảm nhận nhiệm vụ tạo chương trình.
Một công cụ tiên phong như vậy đã thu hút sự chú ý là Devin. Một số người đã nói rằng việc giới thiệu Devin giống như thêm một lập trình viên nữa vào nhóm phát triển. Mặc dù vẫn còn ý kiến cho rằng các kỹ sư con người cần cung cấp hỗ trợ chi tiết để sử dụng hiệu quả, nhưng chắc chắn dữ liệu như vậy sẽ được thu thập và sử dụng để cải thiện thêm.
Kỷ nguyên mà một nhóm phát triển phần mềm điển hình bao gồm một con người và các lập trình viên AI như Devin làm thành viên nhóm đang đến rất nhanh.
Cognition, nhà phát triển của Devin, cũng đã phát hành một dịch vụ có tên DeepWiki.
DeepWiki là một dịch vụ tự động tạo một trang wiki cho mỗi dự án phát triển phần mềm trên GitHub. Điều này có nghĩa là một AI như Devin đọc và phân tích tất cả các chương trình và tài liệu liên quan của một dự án, sau đó tạo tất cả các tài liệu và thông số kỹ thuật thiết kế.
Theo báo cáo, Cognition đã tạo các trang wiki cho hơn 50.000 trong số các dự án phát triển phần mềm công cộng lớn hàng đầu trên GitHub, những dự án có thể truy cập tự do đối với bất kỳ ai.
Vì đây là các dự án công cộng, việc làm như vậy hoàn toàn không có vấn đề gì. Mặc dù các trang wiki có thể được tạo tự động, nhưng chắc hẳn đã có rất nhiều AI tạo sinh hoạt động hết công suất trong một thời gian dài, phát sinh chi phí đáng kể.
Bằng việc Cognition chịu các chi phí này, một số lượng lớn các dự án công cộng đã được hưởng lợi khi nhận được tài liệu và thông số kỹ thuật thiết kế miễn phí.
Nếu dữ liệu thống kê cho thấy các trang wiki này hữu ích cho các dự án công cộng và có tác động đáng kể đến việc cải thiện chất lượng và năng suất, các công ty phát triển phần mềm có thể sẽ áp dụng DeepWiki cho các dự án của riêng họ.
Cognition chắc hẳn đã đầu tư vào việc tạo các trang wiki cho vô số dự án công cộng, tin rằng điều này sẽ xảy ra. Điều này thể hiện sự tự tin của Cognition vào DeepWiki. Và nếu DeepWiki được áp dụng, Devin sẽ tự động đi kèm, làm tăng tốc đáng kể sự phổ biến của các lập trình viên AI.
GitHub như một Nền tảng Chia sẻ Tài liệu
GitHub đã trở thành một dịch vụ web phổ biến và là tiêu chuẩn thực tế để chia sẻ, chỉnh sửa cộng tác và lưu trữ chương trình cho việc phát triển phần mềm mã nguồn mở.
Trong những năm gần đây, các tính năng quản lý và bảo mật mạnh mẽ dành cho doanh nghiệp của nó đã khiến nó trở nên thông dụng đối với các công ty phát triển phần mềm tiên tiến.
Do đó, GitHub thường mang hình ảnh là một dịch vụ web chủ yếu để lưu trữ và chia sẻ chương trình. Tuy nhiên, trên thực tế, nó cho phép chia sẻ, chỉnh sửa cộng tác và lưu trữ nhiều tài liệu và tài liệu khác nhau, hoàn toàn không liên quan đến chương trình.
Vì lý do này, nhiều người sử dụng GitHub để quản lý các tài liệu mà họ muốn chỉnh sửa cộng tác rộng rãi. Các tài liệu này có thể liên quan đến phần mềm hoặc hoàn toàn không liên quan.
Hơn nữa, các blog và trang web cũng là những tài liệu chứa một loại chương trình hoặc được cấu trúc bởi các chương trình để được xuất bản.
Do đó, không có gì lạ khi các cá nhân và công ty lưu trữ nội dung blog và trang web, cùng với các chương trình trình bày và tạo trang web tự động, cùng nhau dưới dạng một dự án GitHub duy nhất.
Cũng có thể biến nội dung blog và trang web như vậy thành các dự án GitHub công khai để cho phép chỉnh sửa cộng tác.
Gần đây, ngoài việc sử dụng AI tạo sinh để phát triển phần mềm, việc nhúng trực tiếp các chức năng AI tạo sinh vào phần mềm ngày càng trở nên phổ biến.
Trong những trường hợp như vậy, các hướng dẫn chi tiết cho AI tạo sinh, được gọi là lời nhắc (prompts), được nhúng vào trong chương trình.
Những lời nhắc này cũng có thể được coi là một loại tài liệu.
Nhà máy Trí tuệ
Mặc dù tôi là một kỹ sư phần mềm, tôi cũng viết bài cho blog của mình.
Mặc dù tôi muốn nhiều người đọc chúng, nhưng việc tăng số lượng độc giả khá thách thức.
Tất nhiên, tôi có thể xem xét việc tạo bài viết để thu hút sự chú ý hoặc trực tiếp liên hệ với những người có ảnh hưởng khác nhau để xin lời khuyên, nỗ lực và khéo léo.
Tuy nhiên, xét về tính cách của tôi và nỗ lực cũng như căng thẳng liên quan, tôi không nhiệt tình với việc quảng bá tích cực. Hơn nữa, dành thời gian cho các hoạt động như vậy sẽ làm chệch hướng thời gian khỏi các khía cạnh cốt lõi trong công việc của tôi: tạo chương trình, suy nghĩ và viết tài liệu.
Vì vậy, gần đây tôi đã quyết định thử một chiến lược "đa phương tiện" hoặc "đa kênh" để mở rộng phạm vi tiếp cận các bài viết trên blog của mình bằng cách triển khai chúng trên nhiều định dạng nội dung khác nhau.
Cụ thể, điều này bao gồm việc dịch các bài viết tiếng Nhật sang tiếng Anh và đăng chúng lên một trang blog tiếng Anh, cũng như tạo video thuyết trình để giải thích các bài viết và xuất bản chúng trên YouTube.
Hơn nữa, ngoài việc xuất bản trên các dịch vụ blog chung, tôi cũng đang xem xét việc tạo trang blog của riêng mình với một chỉ mục các bài viết trước đây của tôi theo danh mục và liên kết các bài viết liên quan.
Nếu tôi phải tạo tất cả những thứ này một cách thủ công mỗi khi có một bài viết mới, thì sẽ đi ngược lại mục đích. Do đó, tất cả các tác vụ ngoại trừ việc viết bài viết tiếng Nhật ban đầu đều được tự động hóa bằng AI tạo sinh. Tôi gọi đây là một Nhà máy Trí tuệ.
Tôi cần phát triển các chương trình để hiện thực hóa hệ thống này.
Hiện tại, tôi đã tạo ra các chương trình có thể tự động hóa hoàn toàn việc dịch thuật, tạo video thuyết trình và tải lên YouTube.
Bây giờ, tôi đang trong quá trình tạo các chương trình cơ bản để phân loại và liên kết các bài viết blog hiện có.
Khi hoàn thành, và tôi tạo một chương trình để tạo trang blog tùy chỉnh của mình và tự động triển khai nó lên một máy chủ web, khái niệm ban đầu về Nhà máy Trí tuệ của tôi sẽ được hiện thực hóa hoàn toàn.
Nhà máy Trí tuệ theo nghĩa rộng hơn
Các bản nháp bài viết blog của tôi, vốn là nguyên liệu thô cho Nhà máy Trí tuệ này, cũng được quản lý dưới dạng các dự án GitHub. Hiện tại, chúng chưa được công khai dưới dạng dự án riêng tư, nhưng tôi đang xem xét việc biến chúng thành các dự án công khai trong tương lai, cùng với các chương trình của Nhà máy Trí tuệ.
Hơn nữa, việc phân loại các bài viết blog, liên kết các bài viết và giải thích video các bài viết blog mà tôi đang phát triển hiện nay đều có chung khái niệm cơ bản với DeepWiki.
Sử dụng AI tạo sinh, các tác phẩm sáng tạo gốc được dùng làm nguyên liệu thô để sản xuất nhiều nội dung khác nhau. Ngoài ra, thông tin và kiến thức trong nội dung này có thể được kết nối để tạo ra cái gọi là cơ sở tri thức.
Sự khác biệt duy nhất nằm ở chỗ nguyên liệu thô là một chương trình hay một bài viết blog. Và đối với DeepWiki và Nhà máy Trí tuệ của tôi, được hỗ trợ bởi AI tạo sinh, sự khác biệt này phần lớn là không đáng kể.
Nói cách khác, nếu thuật ngữ "Nhà máy Trí tuệ" được hiểu theo nghĩa chung, rộng hơn, không giới hạn trong các chương trình cụ thể của tôi, thì DeepWiki cũng là một loại Nhà máy Trí tuệ.
Hơn nữa, những gì một Nhà máy Trí tuệ sản xuất không chỉ giới hạn ở các bài viết dịch sang các ngôn ngữ khác, video thuyết trình, hoặc các trang blog và wiki tự tạo.
Nó có khả năng chuyển đổi nội dung sang mọi phương tiện và định dạng có thể hình dung được, chẳng hạn như video ngắn, tweet, truyện tranh và hoạt hình, podcast và sách điện tử.
Ngoài ra, nội dung trong các phương tiện và định dạng này cũng có thể được đa dạng hóa để phù hợp với nhiều đối tượng khác nhau, bao gồm đa ngôn ngữ hóa rộng hơn, các phiên bản dành cho chuyên gia hoặc người mới bắt đầu, và các phiên bản dành cho người lớn hoặc trẻ em.
Cuối cùng, ngay cả việc tạo nội dung tùy chỉnh theo yêu cầu cũng sẽ khả thi.
GitHub như một Mỏ Trí tuệ
Nguyên liệu thô cho một Nhà máy Trí tuệ về nguyên tắc có thể được lưu trữ ở bất cứ đâu.
Tuy nhiên, xem xét việc GitHub đã trở thành tiêu chuẩn thực tế để chia sẻ, chỉnh sửa cộng tác và lưu trữ các chương trình cho các dự án mã nguồn mở, và nhiều người—không chỉ riêng tôi—sử dụng GitHub làm nơi lưu trữ tài liệu, rõ ràng là GitHub có tiềm năng trở thành nguồn nguyên liệu thô chính cho các Nhà máy Trí tuệ.
Nói cách khác, GitHub sẽ trở thành một Mỏ Trí tuệ được nhân loại chia sẻ, cung cấp nguyên liệu thô cho các Nhà máy Trí tuệ.
Thuật ngữ "được nhân loại chia sẻ" ở đây lặp lại ý tưởng rằng các dự án mã nguồn mở là tài sản phần mềm chung của nhân loại.
Triết lý mã nguồn mở đã làm nền tảng cho GitHub cũng sẽ rất phù hợp với khái niệm tài liệu mở.
Hơn nữa, một văn hóa quản lý thông tin bản quyền và giấy phép cho từng tài liệu, tương tự như các chương trình, có thể sẽ xuất hiện. Nội dung được tạo tự động từ tài liệu nguồn có thể dễ dàng được gán cùng một giấy phép hoặc tuân thủ các quy tắc được quy định bởi giấy phép.
Từ góc độ tạo ra một Nhà máy Trí tuệ, việc tập trung các tài liệu nguyên liệu thô trên GitHub là lý tưởng.
Điều này mang lại hai lợi thế: lợi ích của hiệu quả phát triển, vì nó chỉ đơn giản yêu cầu kết nối GitHub với Nhà máy Trí tuệ, và khả năng thể hiện hiệu quả các chức năng và hiệu suất của Nhà máy Trí tuệ của riêng mình đối với các tài liệu có sẵn công khai, rất giống DeepWiki.
Trong tương lai, khi các Nhà máy Trí tuệ khác nhau được phát triển và kết nối với GitHub, và nhiều cá nhân, công ty quản lý tài liệu trên GitHub để được xử lý bởi các Nhà máy Trí tuệ, vị trí của GitHub như một Mỏ Trí tuệ sẽ trở nên vững chắc.
Cơ sở Tri thức Công cộng Chung của Nhân loại
Với GitHub là cốt lõi, đóng vai trò là Mỏ Trí tuệ, và các Nhà máy Trí tuệ sản xuất nhiều loại nội dung và cơ sở tri thức đa dạng, toàn bộ hệ sinh thái này sẽ tạo ra một cơ sở tri thức công cộng được nhân loại chia sẻ.
Hơn nữa, đây sẽ là một cơ sở tri thức động, thời gian thực, tự động mở rộng khi số lượng tài liệu được xuất bản trên GitHub tăng lên.
Mặc dù cơ sở tri thức phức tạp, khổng lồ này, chứa đựng lượng kiến thức rộng lớn, sẽ mang lại lợi ích cho con người, nhưng việc khai thác hoàn toàn giá trị tiềm năng của nó có thể sẽ là một thách thức đối với chúng ta.
Tuy nhiên, AI sẽ có thể tận dụng triệt để cơ sở tri thức công cộng được chia sẻ rộng rãi này của nhân loại.
Mạch Tri thức Công cộng
Khi một hệ sinh thái như vậy được hiện thực hóa, nhiều thông tin công khai khác nhau sẽ tự nhiên hội tụ trên GitHub.
Điều này sẽ không chỉ giới hạn ở các bản nháp blog cá nhân hay trang web doanh nghiệp.
Các hiểu biết và dữ liệu học thuật, chẳng hạn như các bài báo tiền in, ý tưởng nghiên cứu, dữ liệu thử nghiệm và kết quả khảo sát, cũng sẽ được tập hợp tại đó.
Điều này không chỉ thu hút những người mong muốn đóng góp kiến thức, ý tưởng và dữ liệu vì lợi ích của toàn nhân loại, mà còn cả những người tìm cách phổ biến nhanh chóng các khám phá để được công nhận.
Ngay cả các học giả và nhà nghiên cứu cũng có thể thấy giá trị trong việc có công trình của họ được AI xác nhận về tính hợp lệ, tính mới và tác động, được thể hiện qua nhiều định dạng nội dung khác nhau, và được công nhận bằng cách "lan truyền nhanh chóng" (going viral), thay vì chờ đợi quá trình phản biện khoa học dài dòng, tốn thời gian cho các bài báo.
Ngoài ra, nếu công trình của họ thu hút sự chú ý của các nhà nghiên cứu hoặc công ty khác theo cách này, dẫn đến nghiên cứu hợp tác hoặc tài trợ, thì sẽ có những lợi ích hữu hình.
Hơn nữa, sẽ có sự tái lưu thông kiến thức của chính AI.
Trong khi AI tạo sinh thu nạp một lượng lớn kiến thức thông qua tiền huấn luyện, nó không tích cực học hỏi bằng cách khám phá các kết nối bất ngờ hoặc các cấu trúc tương tự trong khối lượng kiến thức khổng lồ đó.
Điều tương tự cũng áp dụng cho những hiểu biết mới xuất hiện từ việc kết nối các mảnh kiến thức khác nhau.
Mặt khác, khi thảo luận về những điểm tương đồng và kết nối như vậy với một AI tạo sinh đã được tiền huấn luyện, nó có thể đánh giá giá trị của chúng một cách khá chính xác.
Do đó, bằng cách nhập các mảnh kiến thức khác nhau vào AI tạo sinh, so sánh chúng một cách ngẫu nhiên hoặc toàn diện, có thể khám phá ra những điểm tương đồng bất ngờ và những kết nối có giá trị.
Tất nhiên, với số lượng kết hợp khổng lồ, việc bao phủ tất cả là không thực tế. Tuy nhiên, bằng cách hợp lý hóa và tự động hóa quy trình này một cách thích hợp, có thể tự động khai quật kiến thức hữu ích từ kiến thức hiện có.
Bằng cách đạt được việc khám phá kiến thức tự động như vậy và lưu trữ kiến thức đã được khám phá trên GitHub, vòng lặp này dường như có thể tiếp tục vô thời hạn.
Do đó, trong Mỏ Trí tuệ này, tồn tại vô số mạch chưa được khám phá, và việc khai quật chúng sẽ trở nên khả thi.
Kết luận
Khi một cơ sở tri thức chung của nhân loại, theo tiêu chuẩn thực tế như GitHub, được hình thành theo cách này, nó có khả năng sẽ được sử dụng để tiền huấn luyện AI tạo sinh và cho các cơ chế truy xuất kiến thức như RAG.
Trong kịch bản đó, GitHub sẽ tự mình hoạt động như một bộ não khổng lồ. Các AI tạo sinh sau đó sẽ chia sẻ bộ não này, phân phối và mở rộng kiến thức.
Kiến thức được ghi lại thêm vào đó sẽ không chỉ đơn thuần là các bản ghi sự kiện, dữ liệu mới, hay phân loại. Nó cũng sẽ bao gồm kiến thức đóng vai trò chất xúc tác, thúc đẩy việc khám phá các kiến thức khác và các sự kết hợp mới.
Tôi gọi loại kiến thức có tác dụng xúc tác như vậy là Tinh thể Trí tuệ, hay một tinh thể tri thức. Điều này bao gồm, ví dụ, các khuôn khổ tư duy mới.
Khi các khuôn khổ được khám phá hoặc phát triển mới, và các Tinh thể Trí tuệ được thêm vào, hiệu ứng xúc tác của chúng sẽ cho phép các sự kết hợp và cấu trúc hóa kiến thức mới mà trước đây không thể thực hiện được, dẫn đến sự gia tăng kiến thức mới.
Đôi khi, những Tinh thể Trí tuệ này có thể chứa một Tinh thể Trí tuệ khác, sau đó lại tiếp tục khuếch đại kiến thức.
Loại kiến thức này gần với sự tìm tòi toán học, phát triển kỹ thuật, hoặc phát minh, hơn là khám phá khoa học. Do đó, đây là kiến thức phát triển thuần túy thông qua tư duy, chứ không phải thông qua các sự kiện quan sát mới như kiến thức khoa học.
Và GitHub, với vai trò là một Mỏ Trí tuệ, cùng với vô số AI tạo sinh sử dụng nó, sẽ thúc đẩy sự phát triển của loại kiến thức này.
Kiến thức được khám phá nhanh chóng này, vượt xa tốc độ khám phá ở quy mô con người, sẽ được cung cấp dưới định dạng dễ hiểu bởi các Nhà máy Trí tuệ.
Bằng cách này, kiến thức có thể được khám phá thuần túy thông qua tư duy sẽ được khai quật nhanh chóng.