AI tạo sinh hiện nay là một công nghệ AI đã phát triển rực rỡ nhờ vào việc phát minh ra Transformer, một đột phá lớn.
Cơ chế Attention chính là điều đặc trưng cho Transformer trong một cụm từ duy nhất. Điều này được thể hiện ngắn gọn trong tiêu đề bài báo công bố Transformer: "Attention is All You Need."
Điều này bắt nguồn từ thực tế là các nhà nghiên cứu AI vào thời điểm đó đã thực hiện nhiều nỗ lực và thử nghiệm khác nhau để cho phép AI xử lý ngôn ngữ tự nhiên thành thạo như con người, đặt tên và công bố các bài báo về nhiều phương pháp thành công khác nhau.
Nhiều nhà nghiên cứu tin rằng bằng cách kết hợp nhiều cơ chế hoạt động tốt này theo nhiều cách đa dạng, AI có thể xử lý ngôn ngữ tự nhiên như con người sẽ dần xuất hiện. Do đó, họ đã làm việc để tìm ra các cơ chế mới có thể hoạt động kết hợp với các cơ chế khác, và khám phá ra các sự kết hợp tối ưu của các cơ chế này.
Tuy nhiên, Transformer đã lật đổ quan niệm truyền thống này. Thông điệp rằng không cần thiết phải kết hợp nhiều cơ chế khác nhau, và tất cả những gì cần thiết là cơ chế attention, được thể hiện trong tiêu đề của bài báo.
Tất nhiên, bản thân Transformer cũng tích hợp nhiều cơ chế khác nhau, nhưng không nghi ngờ gì rằng trong số đó, cơ chế attention đặc biệt đột phá và nổi bật.
Tổng quan về cơ chế Attention
Cơ chế attention là một hệ thống mà trong quá trình xử lý ngôn ngữ tự nhiên từng từ một, nó có thể học được từ nào trong số nhiều từ đứng trước trong câu mà nó nên "chú ý" khi xử lý một từ nhất định.
Điều này cho phép nó hiểu chính xác những từ như "cái này", "cái đó", hoặc "đã đề cập ở trên" (ám chỉ các từ trong các câu trước), hoặc các cụm từ như "câu mở đầu", "ví dụ thứ hai được liệt kê", hoặc "đoạn trước" (chỉ vị trí trong văn bản), đang ám chỉ điều gì.
Hơn nữa, nó có thể diễn giải đúng các từ ngay cả khi các bổ ngữ cách xa nhau trong một câu, và ngay cả khi một văn bản trở nên dài, nó vẫn có thể diễn giải mà không làm mất ngữ cảnh của từ hiện tại giữa các câu khác.
Đây chính là tiện ích của "attention".
Ngược lại, điều này cũng có nghĩa là khi diễn giải từ đang được xử lý, các từ không cần thiết sẽ bị che đi và loại bỏ khỏi quá trình diễn giải.
Bằng cách chỉ giữ lại các từ cần thiết cho việc diễn giải một từ nhất định và loại bỏ những từ không liên quan, tập hợp các từ cần diễn giải vẫn được giới hạn ở một số lượng nhỏ, bất kể văn bản dài đến đâu, từ đó ngăn chặn mật độ diễn giải bị pha loãng.
Trí tuệ ảo
Bây giờ, thay đổi chủ đề một chút, tôi đã suy nghĩ về khái niệm trí tuệ ảo.
Hiện tại, khi sử dụng AI tạo sinh cho mục đích kinh doanh, nếu bạn hợp nhất tất cả thông tin trong một công ty và cung cấp nó làm kiến thức cho AI tạo sinh, thì khối lượng kiến thức khổng lồ thực sự có thể khiến AI khó xử lý một cách thích hợp.
Vì lý do này, việc phân chia kiến thức theo từng nhiệm vụ, chuẩn bị các cuộc trò chuyện AI cho mỗi nhiệm vụ hoặc tạo các công cụ AI chuyên biệt cho các hoạt động cụ thể sẽ hoạt động hiệu quả hơn.
Điều này ngụ ý rằng đối với các nhiệm vụ phức tạp, việc kết hợp các công cụ và cuộc trò chuyện AI dựa trên kiến thức được phân đoạn này trở nên cần thiết.
Đây là một hạn chế hiện tại khi sử dụng AI tạo sinh, nhưng ngay cả với AI tạo sinh trong tương lai, đối với các nhiệm vụ cụ thể, việc chỉ tập trung vào kiến thức cần thiết cho nhiệm vụ đó sẽ mang lại độ chính xác cao hơn.
Thay vào đó, tôi tin rằng AI tạo sinh trong tương lai sẽ có thể tự chuyển đổi giữa các tập kiến thức cần thiết tùy thuộc vào tình huống, ngay cả khi con người không cần phải phân đoạn kiến thức.
Khả năng này chính là trí tuệ ảo. Nó giống như một máy ảo có thể chạy nhiều hệ điều hành khác nhau trên một máy tính duy nhất. Điều đó có nghĩa là trong một trí tuệ, nhiều trí tuệ ảo với các chuyên môn khác nhau có thể hoạt động.
Ngay cả AI tạo sinh hiện tại cũng có thể mô phỏng các cuộc thảo luận giữa nhiều người hoặc tạo ra các câu chuyện có nhiều nhân vật. Do đó, trí tuệ ảo không phải là một khả năng đặc biệt, mà là một sự mở rộng của AI tạo sinh hiện tại.
Trí tuệ ảo vi mô
Cơ chế trí tuệ ảo, cơ chế thu hẹp kiến thức cần thiết tùy theo nhiệm vụ, thực hiện điều gì đó tương tự như cơ chế attention.
Tức là, nó tương tự như cơ chế attention ở chỗ nó chỉ tập trung vào kiến thức liên quan tùy thuộc vào nhiệm vụ đang được xử lý.
Ngược lại, cơ chế attention có thể được coi là một cơ chế hiện thực hóa điều gì đó giống như trí tuệ ảo. Tuy nhiên, trí tuệ ảo mà tôi đang xem xét là một cơ chế chọn kiến thức liên quan từ một tập hợp kiến thức, trong khi cơ chế attention hoạt động trên một tập hợp các từ.
Vì lý do này, cơ chế attention có thể được gọi là một trí tuệ ảo vi mô.
Cơ chế Attention tường minh
Nếu chúng ta xem cơ chế attention là trí tuệ ảo vi mô, thì ngược lại, trí tuệ ảo mà tôi đã đề cập trước đó có thể được hiện thực hóa bằng cách xây dựng một cơ chế attention vĩ mô.
Và cơ chế attention vĩ mô này không cần phải được thêm vào cấu trúc nội bộ của các mô hình ngôn ngữ lớn hoặc liên quan đến việc huấn luyện mạng nơ-ron.
Nó có thể đơn giản là một câu tường minh được viết bằng ngôn ngữ tự nhiên, chẳng hạn như "Khi thực hiện Nhiệm vụ A, hãy tham khảo Kiến thức B và Kiến thức C."
Điều này làm rõ kiến thức cần thiết cho Nhiệm vụ A. Bản thân câu này là một loại kiến thức.
Điều này có thể được gọi là cơ chế attention tường minh. Câu này có thể được mô tả là kiến thức attention, nó tuyên bố rõ ràng kiến thức cần được tập trung vào khi thực hiện Nhiệm vụ A.
Hơn nữa, kiến thức attention này có thể được tạo ra hoặc cập nhật bởi AI tạo sinh.
Nếu một nhiệm vụ thất bại do thiếu kiến thức, thì như một bài học kinh nghiệm, kiến thức attention có thể được cập nhật để bao gồm thêm kiến thức cần được tham khảo cho nhiệm vụ đó.
Kết luận
Cơ chế attention đã cải thiện đáng kể khả năng của AI tạo sinh.
Nó không chỉ đơn thuần là một cơ chế hoạt động tốt một cách ngẫu nhiên; như chúng ta đã thấy ở đây, chính cơ chế tự động thu hẹp thông tin để tham chiếu trong từng tình huống dường như là bản chất của trí tuệ tiên tiến.
Và giống như trí tuệ ảo và kiến thức attention tường minh, cơ chế attention cũng là chìa khóa để tiến bộ trí tuệ một cách đệ quy ở nhiều cấp độ khác nhau.