Bỏ qua đến nội dung
Bài viết này đã được dịch từ tiếng Nhật bằng AI
Đọc bằng tiếng Nhật
Bài viết này thuộc Miền Công Cộng (CC0). Hãy thoải mái sử dụng nó một cách tự do. CC0 1.0 Universal

Học máy ngôn ngữ tự nhiên

Học máy truyền thống hoạt động trong một mô hình mà máy tính, vốn thành thạo tính toán số học, học bằng cách sử dụng dữ liệu số và thu nhận các tham số được định lượng.

Tuy nhiên, con người có khả năng học hỏi không chỉ thông qua các cơ chế số học mà còn thông qua ngôn ngữ. Chúng ta sắp xếp và ghi lại kinh nghiệm bằng lời, sau đó hồi tưởng, đọc và sử dụng những từ ngữ đó.

Các Mô hình Ngôn ngữ Lớn (LLM) cũng có thể mô tả kiến thức bằng lời và sử dụng kiến thức bằng cách đọc lời.

Bằng cách tận dụng LLM làm bộ xử lý ngôn ngữ tự nhiên, học máy dựa trên ngôn ngữ tự nhiên trở nên khả thi, thay vì chỉ học máy dựa trên số học.

Vì lý do này, sự ra đời của LLM đã mở ra một lĩnh vực mới: học máy ngôn ngữ tự nhiên.

Tiền huấn luyện LLM là một dạng học máy số học truyền thống. Học máy ngôn ngữ tự nhiên được thảo luận ở đây đề cập đến một loại học máy mới sử dụng các LLM đã được tiền huấn luyện.

Mô hình cơ bản của học máy ngôn ngữ tự nhiên

Học máy ngôn ngữ tự nhiên sở hữu những khía cạnh tương tự như học máy số học truyền thống, cũng như những khía cạnh hoàn toàn khác biệt.

Để nắm bắt khái niệm học máy ngôn ngữ tự nhiên, trước tiên chúng ta hãy mô tả một mô hình cơ bản tập trung vào những phần giống với học máy số học truyền thống.

Từ đây trở đi, Mô hình Ngôn ngữ Lớn đã được tiền huấn luyện sẽ được gọi là LLM. Lưu ý rằng các tham số của LLM không thay đổi chút nào trong quá trình học này.

Mô hình cơ bản là một mô hình học có giám sát, nhắm mục tiêu các bài toán phân loại.

Đối với dữ liệu học tập, nhiều cặp câu đầu vào và phân loại của chúng được chuẩn bị làm câu trả lời đúng.

Ví dụ, giả sử một công ty có Phòng Tổng vụ và Phòng Hành chính.

Hai phòng ban này có vai trò riêng biệt. Đối với các câu đầu vào như "Bóng đèn văn phòng bị hỏng," "Tôi quên thẻ ra vào," hoặc "Tôi muốn đặt hội trường chính tại trụ sở," phân loại chỉ ra phòng ban nào, Tổng vụ hay Hành chính, chịu trách nhiệm.

Từ dữ liệu huấn luyện này, chỉ các câu đầu vào được trích xuất và đưa vào LLM.

Ở đây, chúng ta cố ý hạn chế phản hồi thông qua một lời nhắc hệ thống như: "Vui lòng cho biết bộ phận chịu trách nhiệm cho yêu cầu này là Tổng vụ hay Hành chính. Không bao gồm bất kỳ ký tự nào khác ngoài 'Tổng vụ' hoặc 'Hành chính' trong câu trả lời của bạn."

Ban đầu, LLM tạo ra một phản hồi mà không có kiến thức về công ty này. Đương nhiên, nó có thể sai, hoặc đôi khi đúng một cách ngẫu nhiên.

Đối với mỗi phản hồi, một hệ thống giảng dạy sẽ xác định xem nó đúng hay sai. Sau đó, sự kết hợp của câu đầu vào, phản hồi của LLM và kết quả đánh giá được lưu vào một cơ sở tri thức.

Quá trình này được lặp lại khoảng một nửa số dữ liệu huấn luyện.

Đối với nửa còn lại của dữ liệu huấn luyện, tất cả thông tin đã ghi trong cơ sở tri thức được thêm vào lời nhắc hệ thống cho LLM, và quy trình tương tự được thực hiện.

Tại thời điểm này, cơ sở tri thức chứa thông tin về việc phân chia nhiệm vụ giữa Phòng Tổng vụ và Phòng Hành chính của công ty này, vì vậy khả năng trả lời đúng sẽ cao hơn so với nửa dữ liệu đầu tiên.

Bằng cách này, một hệ thống kết hợp LLM và cơ sở tri thức có thể học cách phân chia nhiệm vụ cho các Phòng Tổng vụ và Hành chính của một công ty.

Cơ chế học tập tự nó tương tự như học máy số học truyền thống. Sự khác biệt là kết quả học tập được phản ánh trong cơ sở tri thức, chứ không phải trong các tham số của mạng nơ-ron bên trong LLM. Hơn nữa, cơ sở tri thức ghi lại ngôn ngữ tự nhiên, chứ không phải các giá trị số.

Đây là mô hình cơ bản của học máy ngôn ngữ tự nhiên.

Tính thực tế của mô hình cơ bản

Những ai sử dụng LLM sẽ nhanh chóng nhận ra rằng mô hình cơ bản này thiếu tính thực tế.

Điều này là do không cần phải tốn công sức để có một hệ thống giảng dạy xác định các phán đoán đúng/sai; người ta có thể đơn giản nhập trực tiếp dữ liệu huấn luyện vào lời nhắc hệ thống ngay từ đầu.

Tuy nhiên, bằng cách áp dụng mô hình cơ bản và thay đổi kịch bản một chút, nó sẽ trở nên thực tế hơn.

Chẳng hạn, hãy tưởng tượng rằng Phòng Tổng vụ và Phòng Hành chính cùng nhau tạo ra một bàn tiếp nhận yêu cầu, và một người sẽ thủ công gán từng yêu cầu đến cho phòng ban phù hợp.

Một hệ thống đơn giản được xây dựng để thêm các yêu cầu này và kết quả gán của chúng vào một cơ sở tri thức.

Sau đó, sử dụng cơ sở tri thức này, LLM có thể thay thế con người và gán các yêu cầu mới cho các phòng ban.

Trong trường hợp này, nếu LLM gán sai một yêu cầu dành cho Phòng Hành chính sang Phòng Tổng vụ, nhân viên Phòng Tổng vụ sẽ gán lại yêu cầu đó cho Phòng Hành chính. Thông tin về việc gán lại này cũng được ghi vào cơ sở tri thức.

Cơ chế đơn giản này để ghi nhật ký gán, kết hợp với một LLM và một cơ sở tri thức, sẽ tạo thành một mô hình học máy ngôn ngữ tự nhiên có giám sát thực tế.

Điểm mấu chốt ở đây, một lần nữa, là các tham số của mạng nơ-ron trong LLM không thay đổi chút nào. Hơn nữa, kết quả học tập phản hồi là một tập hợp các câu ngôn ngữ tự nhiên, không phải giá trị số.

Và, không còn nghi ngờ gì nữa, hệ thống này liên quan đến học máy, chứ không phải học của con người.

Do đó, đây là một hình thức học máy mới: học máy ngôn ngữ tự nhiên.

Điểm mạnh của học máy ngôn ngữ tự nhiên

Không giống như học máy số học, học ngôn ngữ tự nhiên mang lại nhiều lợi thế.

Nói tóm lại, đặc điểm nổi bật của nó là hiệu quả học tập cực kỳ cao.

Học máy số học thường yêu cầu một lượng lớn dữ liệu huấn luyện và học lặp lại. Hơn nữa, việc tiền xử lý dữ liệu huấn luyện cũng cần thiết.

Một lượng lớn dữ liệu huấn luyện là cần thiết vì các tính năng cần học không nằm trong một mảnh dữ liệu duy nhất mà được phân tán trong một lượng lớn dữ liệu.

Vì lý do này, dữ liệu huấn luyện có độ lớn bằng bình phương số chiều của các tính năng thực sự mong muốn là cần thiết.

Học lặp lại là cần thiết để đảm bảo rằng các tham số của mạng nơ-ron được học một cách thích hợp mà không rơi vào các cực tiểu cục bộ, điều này đòi hỏi phải giữ cho sự thay đổi tham số nhỏ với mỗi phản hồi.

Tiền xử lý dữ liệu huấn luyện, chẳng hạn như chuẩn hóa và trích xuất cạnh, là cần thiết để làm nổi bật các tính năng thực sự mong muốn. Việc tiền xử lý này cũng đòi hỏi nỗ lực đáng kể.

Ví dụ, nếu việc phân chia nhiệm vụ giữa Phòng Hành chính và Phòng Tổng vụ được học bằng mạng nơ-ron truyền thống, và các tính năng của nó có 50 chiều, thì sẽ cần ít nhất khoảng 1.000 hoặc nhiều hơn các trường hợp dữ liệu huấn luyện. Ngoài ra, những trường hợp dữ liệu 1.000+ này có thể cần được học lặp lại khoảng 100 lần để đạt được độ chính xác học tập thích hợp.

Hơn nữa, nếu tập hợp 1.000 trường hợp dữ liệu huấn luyện này chứa các từ thừa, các biến thể về chính tả hoặc nhiều thứ tự từ và cấu trúc câu khác nhau, thì hiệu quả học tập sẽ giảm, và các tính năng không liên quan có thể được học.

Do đó, tiền xử lý để loại bỏ các từ thừa, chuẩn hóa thuật ngữ để loại bỏ các biến thể, và thống nhất thứ tự từ và cú pháp là không thể thiếu.

Ngược lại, học máy ngôn ngữ tự nhiên yêu cầu ít dữ liệu huấn luyện hơn, không cần lặp lại với cùng một dữ liệu huấn luyện, và thường không cần tiền xử lý.

Nếu các tính năng cho việc phân chia nhiệm vụ giữa Phòng Hành chính và Phòng Tổng vụ có 50 chiều, thì 50 mảnh thông tin tương ứng với mỗi chiều là đủ.

Hơn nữa, điều này không có nghĩa là cần 50 câu riêng biệt.

Một câu duy nhất như "Các nhiệm vụ liên quan đến A, B, C và D do Phòng Hành chính xử lý" có thể bao gồm bốn chiều thông tin.

Hơn nữa, bằng cách trừu tượng hóa ngôn ngữ, thông tin từ nhiều chiều có thể được tổng hợp. Một câu như "Bảo trì vật tư tiêu hao và thiết bị tòa nhà là trách nhiệm của Phòng Hành chính" tổng hợp một loạt thông tin đa chiều, bao gồm thay bóng đèn và trục trặc cửa tự động.

Sự trừu tượng hóa này có thể được cho là làm giảm dữ liệu huấn luyện bằng cách tận dụng kiến thức được tiền huấn luyện và khả năng suy luận của LLM.

Và, về cơ bản, học ngôn ngữ tự nhiên không yêu cầu học lặp lại. Một khi câu nói trên được thêm vào cơ sở tri thức, quá trình học đã hoàn tất.

Ngoài ra, việc tiền xử lý kiến thức là không cần thiết. Ngay cả khi các giải thích về Phòng Hành chính hoặc Phòng Tổng vụ bị lẫn lộn trong các văn bản khác nhau, chúng vẫn có thể được sử dụng làm kiến thức.

Hoặc, như trong ví dụ trước, dữ liệu thô như hồ sơ yêu cầu và phân công có thể được sử dụng ngay lập tức làm dữ liệu huấn luyện mà không cần tiền xử lý.

Do đó, học máy ngôn ngữ tự nhiên có thể học hiệu quả hơn nhiều so với học máy số học.

Kết luận

So với khả năng tính toán số học tốc độ cao của máy tính, khả năng xử lý ngôn ngữ tự nhiên của các mô hình ngôn ngữ lớn khá chậm.

Tuy nhiên, học máy ngôn ngữ tự nhiên cho phép học tập hiệu quả, vượt xa khoảng cách giữa tính toán số học tốc độ cao và xử lý ngôn ngữ tự nhiên chậm.

Hơn nữa, các mô hình ngôn ngữ lớn, vốn đã đạt được những tiến bộ đáng kinh ngạc thông qua học tập số học, dường như đang tiến gần đến giới hạn cải thiện hiệu suất thông qua việc mở rộng quy mô đơn giản, theo các định luật mở rộng.

Trong một kịch bản như vậy, rất có khả năng trọng tâm sẽ chuyển sang việc nâng cao khả năng thông qua học máy ngôn ngữ tự nhiên.