Bỏ qua đến nội dung
Bài viết này đã được dịch từ tiếng Nhật bằng AI
Đọc bằng tiếng Nhật
Bài viết này thuộc Miền Công Cộng (CC0). Hãy thoải mái sử dụng nó một cách tự do. CC0 1.0 Universal

Học máy bằng ngôn ngữ tự nhiên

Học máy truyền thống hoạt động trong một mô hình mà máy tính, vốn giỏi về tính toán số, học từ dữ liệu số và thu thập các tham số số.

Mặt khác, chúng ta có khả năng học không chỉ thông qua các cơ chế số mà còn thông qua ngôn ngữ. Chúng ta tổ chức và ghi lại kinh nghiệm dưới dạng từ ngữ, sau đó nhớ lại hoặc đọc những từ đó để sử dụng chúng.

Các mô hình ngôn ngữ lớn cũng có thể mô tả kiến thức bằng cách sử dụng từ ngữ và sử dụng từ ngữ bằng cách đọc chúng.

Bằng cách tận dụng các mô hình ngôn ngữ lớn, vốn là bộ xử lý ngôn ngữ tự nhiên, học máy dựa trên ngôn ngữ tự nhiên trở nên khả thi, thay vì chỉ học máy dựa trên số.

Do đó, sự ra đời của các mô hình ngôn ngữ lớn đã mở ra một lĩnh vực mới: học máy bằng ngôn ngữ tự nhiên.

Việc tiền huấn luyện các mô hình ngôn ngữ lớn là học máy số truyền thống. Học máy bằng ngôn ngữ tự nhiên được mô tả ở đây đề cập đến một hình thức học máy mới sử dụng các mô hình ngôn ngữ lớn đã được tiền huấn luyện.

Mô hình cơ bản của học máy bằng ngôn ngữ tự nhiên

Học máy bằng ngôn ngữ tự nhiên có những khía cạnh tương tự và hoàn toàn khác biệt so với học máy số truyền thống.

Đầu tiên, để hình dung về học máy bằng ngôn ngữ tự nhiên, chúng ta sẽ giải thích những phần tương tự với học máy số truyền thống dưới dạng một mô hình cơ bản.

Từ thời điểm này trở đi, chúng ta sẽ gọi mô hình ngôn ngữ lớn đã được tiền huấn luyện là LLM. Xin lưu ý rằng các tham số của LLM không thay đổi chút nào trong quá trình học này.

Mô hình cơ bản là học có giám sát, nhắm mục tiêu vào bài toán phân loại.

Nhiều cặp câu đầu vào và phân loại của chúng được chuẩn bị làm câu trả lời đúng cho dữ liệu huấn luyện.

Ví dụ, giả sử một công ty có Phòng Tổng vụ và Phòng Hành chính.

Hai phòng ban này có sự phân chia nhiệm vụ. Đối với các câu đầu vào như "Bóng đèn văn phòng bị cháy," "Tôi quên thẻ ra vào," hoặc "Tôi muốn đặt hội trường chính ở trụ sở chính," phân loại cho biết Phòng Tổng vụ hay Phòng Hành chính chịu trách nhiệm.

Từ dữ liệu huấn luyện này, chỉ các câu đầu vào được trích xuất và đưa vào LLM.

Ở đây, như một lời nhắc hệ thống, chúng ta cố ý hạn chế câu trả lời bằng cách nói: "Vui lòng cho biết phòng ban nào, Tổng vụ hay Hành chính, chịu trách nhiệm về yêu cầu này. Không bao gồm bất kỳ ký tự nào khác ngoài 'Tổng vụ' hoặc 'Hành chính' trong câu trả lời của bạn."

Ban đầu, LLM sẽ tạo ra các câu trả lời mà không có bất kỳ kiến thức nào về công ty này. Đương nhiên, một số câu trả lời sẽ sai, trong khi những câu khác có thể đúng một cách ngẫu nhiên.

Đối với mỗi câu trả lời, hệ thống giáo viên sẽ xác định xem câu trả lời đó đúng hay sai. Sau đó, sự kết hợp của câu đầu vào, câu trả lời của LLM và kết quả đánh giá sẽ được lưu vào cơ sở tri thức.

Quá trình này được lặp lại cho khoảng một nửa dữ liệu huấn luyện.

Đối với nửa còn lại của dữ liệu huấn luyện, quá trình tương tự được thực hiện, nhưng lần này tất cả thông tin được ghi lại trong cơ sở tri thức được thêm vào lời nhắc hệ thống cho LLM.

Tại thời điểm này, cơ sở tri thức chứa thông tin về sự phân chia nhiệm vụ giữa các phòng Tổng vụ và Hành chính của công ty này, vì vậy xác suất nhận được câu trả lời đúng sẽ cao hơn so với nửa đầu dữ liệu.

Bằng cách này, một hệ thống kết hợp LLM và cơ sở tri thức có thể học được sự phân chia nhiệm vụ giữa các phòng Tổng vụ và Hành chính của công ty này.

Bản thân cơ chế học tương tự như học máy số truyền thống. Sự khác biệt là kết quả học được phản ánh trong cơ sở tri thức, chứ không phải trong các tham số của mạng nơ-ron trong LLM. Và, ngôn ngữ tự nhiên, không phải số, được ghi lại trong cơ sở tri thức.

Đây là mô hình cơ bản của học máy bằng ngôn ngữ tự nhiên.

Tính thực tế của mô hình cơ bản

Như bất cứ ai tận dụng LLM sẽ nhanh chóng nhận ra, mô hình cơ bản này thiếu tính thực tế.

Điều này là do, thay vì phải trải qua rắc rối khi có một hệ thống giáo viên xác định câu trả lời đúng và sai, người ta có thể đơn giản nhập dữ liệu huấn luyện vào lời nhắc hệ thống ngay từ đầu.

Tuy nhiên, bằng cách áp dụng mô hình cơ bản và thay đổi một chút kịch bản, nó sẽ trở nên thực tế hơn.

Ví dụ, giả sử các phòng Tổng vụ và Hành chính cùng nhau thiết lập một bàn tiếp nhận yêu cầu, và con người tự mình phân loại các yêu cầu đến cho đúng phòng ban.

Một hệ thống đơn giản có thể được tạo ra để thêm các yêu cầu này và kết quả định tuyến của chúng vào một cơ sở tri thức.

Sau đó, sử dụng cơ sở tri thức này, LLM có thể thay thế con người trong việc định tuyến các yêu cầu mới đến các phòng ban.

Trong trường hợp này, nếu LLM định tuyến sai một yêu cầu dành cho Hành chính sang Tổng vụ, người phụ trách tại Tổng vụ sẽ chuyển lại yêu cầu đó về Hành chính. Thông tin chuyển lại này cũng được ghi vào cơ sở tri thức.

Cơ chế đơn giản này để ghi lại nhật ký định tuyến, kết hợp với hệ thống LLM và cơ sở tri thức, sẽ trở thành một mô hình giám sát thực tế cho học máy bằng ngôn ngữ tự nhiên.

Điểm mấu chốt ở đây, một lần nữa, là các tham số mạng nơ-ron trong LLM không thay đổi chút nào. Và kết quả học tập phản hồi không phải là các giá trị số, mà là tập hợp các câu ngôn ngữ tự nhiên.

Hơn nữa, hệ thống này rõ ràng là một hệ thống học máy, chứ không phải một hệ thống học tập của con người.

Do đó, đây là một hình thức học máy mới: học máy thông qua ngôn ngữ tự nhiên.

Điểm mạnh của học máy bằng ngôn ngữ tự nhiên

Không giống như học máy số, học máy bằng ngôn ngữ tự nhiên mang lại nhiều lợi thế.

Nói một cách đơn giản, đặc điểm nổi bật của nó là hiệu quả học tập vượt trội.

Học máy số thường yêu cầu lượng lớn dữ liệu huấn luyện và học lặp đi lặp lại. Tiền xử lý dữ liệu huấn luyện cũng là điều cần thiết.

Lượng lớn dữ liệu huấn luyện là cần thiết vì các đặc trưng mà người ta muốn học không nằm trong một mảnh dữ liệu duy nhất, mà được phân tán trên một khối lượng lớn dữ liệu.

Vì lý do này, dữ liệu huấn luyện theo thứ tự bình phương số chiều của các đặc trưng thực sự mong muốn là bắt buộc.

Học lặp đi lặp lại là cần thiết vì sự thay đổi trong các tham số trong một vòng lặp phản hồi duy nhất phải nhỏ để đảm bảo rằng các tham số mạng nơ-ron được học một cách thích hợp mà không rơi vào các điểm tối ưu cục bộ.

Tiền xử lý dữ liệu huấn luyện, chẳng hạn như chuẩn hóa và trích xuất biên, là cần thiết để làm nổi bật các đặc trưng thực sự mong muốn. Việc tiền xử lý này cũng đòi hỏi nỗ lực đáng kể.

Ví dụ, nếu sự phân chia nhiệm vụ giữa phòng hành chính và tổng vụ được học bằng cách sử dụng mạng nơ-ron truyền thống, và các đặc trưng của nó là 50 chiều, thì ít nhất 1000 điểm dữ liệu huấn luyện trở lên sẽ được yêu cầu. Ngoài ra, 1000+ điểm dữ liệu này có thể cần được lặp lại khoảng 100 lần để đạt được độ chính xác học tập đầy đủ.

Hơn nữa, nếu 1000 điểm dữ liệu này chứa các từ thừa, các biến thể trong cách viết từ, hoặc nhiều loại trật tự từ và cú pháp khác nhau, hiệu quả học tập sẽ giảm, hoặc các đặc trưng không liên quan sẽ được học.

Do đó, tiền xử lý để loại bỏ các từ thừa, chuẩn hóa từ vựng để loại bỏ các biến thể, và thống nhất trật tự từ và cú pháp là không thể thiếu.

Mặt khác, học máy bằng ngôn ngữ tự nhiên yêu cầu ít dữ liệu huấn luyện hơn, không yêu cầu lặp lại với cùng dữ liệu huấn luyện, và trong nhiều trường hợp, không yêu cầu tiền xử lý.

Nếu các đặc trưng của sự phân chia nhiệm vụ giữa phòng hành chính và tổng vụ là 50 chiều, thì 50 thông tin tương ứng với mỗi chiều thường là đủ.

Hơn nữa, điều này không có nghĩa là 50 câu riêng biệt là bắt buộc.

Một câu đơn lẻ như "Các nhiệm vụ liên quan đến A, B, C và D do phòng hành chính xử lý" có thể bao gồm thông tin cho bốn chiều.

Hơn nữa, bằng cách trừu tượng hóa ngôn ngữ, thông tin từ nhiều chiều có thể được tổng hợp. Một câu đơn lẻ như "Phòng hành chính chịu trách nhiệm về vật tư xây dựng và bảo trì thiết bị" tổng hợp thông tin từ nhiều chiều khác nhau, bao gồm thay bóng đèn và sự cố cửa tự động.

Sự trừu tượng hóa này tận dụng kiến thức tiền huấn luyện và khả năng suy luận của LLM, do đó giảm lượng dữ liệu huấn luyện cần thiết.

Và, về cơ bản, học bằng ngôn ngữ tự nhiên không yêu cầu học lặp đi lặp lại. Một khi câu nói trên được thêm vào cơ sở tri thức, quá trình học hoàn tất.

Hơn nữa, tiền xử lý kiến thức là không cần thiết. Ngay cả khi các mô tả về phòng hành chính hoặc tổng vụ được trộn lẫn với nhiều câu khác, chúng vẫn có thể được sử dụng làm kiến thức.

Ngoài ra, dữ liệu thô, chẳng hạn như nhật ký các yêu cầu và phân công như trong ví dụ trước, có thể được sử dụng ngay lập tức làm dữ liệu huấn luyện mà không cần tiền xử lý.

Bằng cách này, học máy bằng ngôn ngữ tự nhiên có thể học hiệu quả hơn nhiều so với học máy số.

Kết luận

So với khả năng tính toán số tốc độ cao của máy tính, khả năng xử lý ngôn ngữ tự nhiên của các mô hình ngôn ngữ lớn khá chậm.

Tuy nhiên, học máy bằng ngôn ngữ tự nhiên cho phép học tập hiệu quả hơn so với học máy số.

Hiệu quả này vượt xa khoảng cách giữa khả năng tính toán số tốc độ cao và khả năng xử lý ngôn ngữ tự nhiên chậm.

Hơn nữa, các mô hình ngôn ngữ lớn, vốn đã trải qua quá trình phát triển đáng kinh ngạc thông qua học số, dường như đang tiến gần đến giới hạn trong việc cải thiện khả năng thông qua việc mở rộng quy mô đơn thuần, theo các định luật mở rộng.

Trong trường hợp đó, rất có thể trọng tâm sẽ chuyển sang việc cải thiện khả năng thông qua học máy bằng ngôn ngữ tự nhiên.