Przejdź do treści
Ten artykuł został przetłumaczony z języka japońskiego za pomocą AI
Czytaj po japońsku
Ten artykuł znajduje się w Domenie Publicznej (CC0). Możesz go swobodnie używać. CC0 1.0 Universal

Uczenie maszynowe języka naturalnego

Tradycyjne uczenie maszynowe działa w paradygmacie, w którym komputery, biegłe w obliczeniach numerycznych, uczą się z danych numerycznych i pozyskują parametry numeryczne.

Z drugiej strony, jesteśmy zdolni do uczenia się nie tylko poprzez mechanizmy numeryczne, ale także poprzez język. Organizujemy i zapisujemy doświadczenia w postaci słów, a następnie przypominamy sobie lub czytamy te słowa, aby je wykorzystać.

Duże modele językowe mogą podobnie opisywać wiedzę za pomocą słów i wykorzystywać słowa poprzez ich czytanie.

Wykorzystanie dużych modeli językowych, które są procesorami języka naturalnego, umożliwia uczenie maszynowe oparte na języku naturalnym, zamiast jedynie uczenia maszynowego opartego na liczbach.

W konsekwencji, pojawienie się dużych modeli językowych otworzyło nową dziedzinę: uczenie maszynowe języka naturalnego.

Wstępne szkolenie dużych modeli językowych to tradycyjne uczenie maszynowe numeryczne. Opisane tutaj uczenie maszynowe języka naturalnego odnosi się do nowej formy uczenia maszynowego, która wykorzystuje wstępnie wyszkolone duże modele językowe.

Podstawowy model uczenia maszynowego języka naturalnego

Uczenie maszynowe języka naturalnego posiada aspekty, które są podobne do tradycyjnego numerycznego uczenia maszynowego, jak i całkowicie od niego różne.

Na początek, aby zarysować obraz uczenia maszynowego języka naturalnego, wyjaśnimy części, które są podobne do tradycyjnego numerycznego uczenia maszynowego, jako model podstawowy.

Od tego momentu będziemy odnosić się do wstępnie wytrenowanego dużego modelu językowego jako LLM. Należy zauważyć, że parametry LLM w ogóle nie zmieniają się podczas tego procesu uczenia.

Podstawowy model to uczenie nadzorowane, ukierunkowane na problem klasyfikacji.

Wiele par zdań wejściowych i ich klasyfikacji jest przygotowywanych jako poprawne odpowiedzi dla danych treningowych.

Na przykład, załóżmy, że firma posiada Dział Spraw Ogólnych i Dział Spraw Administracyjnych.

Te dwa działy mają podział obowiązków. Dla zdań wejściowych, takich jak „Żarówka w biurze się przepaliła”, „Zapomniałem karty dostępu” lub „Chcę zarezerwować główną salę w centrali”, klasyfikacja wskazuje, czy odpowiedzialny jest Dział Spraw Ogólnych, czy Dział Spraw Administracyjnych.

Z tych danych treningowych wyodrębniane są tylko zdania wejściowe i przekazywane do LLM.

Tutaj, jako prompt systemowy, celowo ograniczamy odpowiedź, stwierdzając: „Proszę odpowiedzieć, który dział, Spraw Ogólnych czy Spraw Administracyjnych, jest odpowiedzialny za to zapytanie. W odpowiedzi nie należy zamieszczać żadnych znaków innych niż 'Sprawy Ogólne' lub 'Sprawy Administracyjne'.”

Początkowo LLM będzie generował odpowiedzi bez żadnej wiedzy o tej firmie. Naturalnie, niektóre odpowiedzi będą niepoprawne, podczas gdy inne mogą być poprawne przypadkowo.

Dla każdej odpowiedzi system nauczyciela określa, czy jest ona poprawna, czy niepoprawna. Następnie kombinacja zdania wejściowego, odpowiedzi LLM i wyniku oceny jest zapisywana w bazie wiedzy.

Ten proces jest powtarzany dla około połowy danych treningowych.

Dla pozostałej połowy danych treningowych wykonuje się ten sam proces, ale tym razem wszystkie informacje zapisane w bazie wiedzy są dodawane do promptu systemowego dla LLM.

W tym momencie baza wiedzy zawiera informacje o podziale obowiązków między Działem Spraw Ogólnych a Działem Spraw Administracyjnych tej firmy, więc prawdopodobieństwo uzyskania poprawnych odpowiedzi powinno być wyższe niż w przypadku pierwszej połowy danych.

W ten sposób system łączący LLM i bazę wiedzy może nauczyć się podziału obowiązków między Działem Spraw Ogólnych a Działem Spraw Administracyjnych tej firmy.

Sam mechanizm uczenia się jest podobny do tradycyjnego numerycznego uczenia maszynowego. Różnica polega na tym, że wyniki uczenia są odzwierciedlone w bazie wiedzy, a nie w parametrach sieci neuronowej w LLM. Ponadto w bazie wiedzy zapisywany jest język naturalny, a nie liczby.

To jest podstawowy model uczenia maszynowego języka naturalnego.

Realizm modelu podstawowego

Jak szybko zauważy każdy, kto korzysta z modeli LLM, ten podstawowy model nie jest realistyczny.

Dzieje się tak, ponieważ zamiast trudu związanego z tym, aby system nauczyciela określał poprawne i niepoprawne odpowiedzi, można by po prostu od początku wprowadzić same dane treningowe do prompta systemowego.

Jednakże, stosując model podstawowy i nieznacznie zmieniając scenariusz, zyskuje on na realizmie.

Na przykład, załóżmy, że działy Spraw Ogólnych i Spraw Administracyjnych wspólnie utworzyły punkt obsługi zapytań, a ludzie indywidualnie przydzielają przychodzące zapytania do odpowiedniego działu.

Można stworzyć prosty system, który będzie dodawał te zapytania i wyniki ich przekierowania do bazy wiedzy.

Następnie, wykorzystując tę bazę wiedzy, LLM może przejąć od ludzi przekierowywanie nowych zapytań do działów.

W takim przypadku, jeśli LLM błędnie przekieruje zapytanie przeznaczone dla Działu Spraw Administracyjnych do Działu Spraw Ogólnych, osoba odpowiedzialna w Dziale Spraw Ogólnych przekieruje zapytanie z powrotem do Działu Spraw Administracyjnych. Ta informacja o ponownym przekierowaniu jest również zapisywana w bazie wiedzy.

Ten prosty mechanizm rejestrowania dzienników przekierowań, połączony z LLM i systemem bazy wiedzy, stałby się realistycznym nadzorowanym modelem uczenia maszynowego języka naturalnego.

Kluczową kwestią jest tutaj, ponownie, to, że parametry sieci neuronowej w LLM w ogóle się nie zmieniają. A wyniki uczenia zwrotnego to nie wartości numeryczne, lecz zbiory zdań w języku naturalnym.

Co więcej, ten system jest jednoznacznie systemem uczenia maszynowego, a nie uczenia się przez ludzi.

Dlatego jest to nowa forma uczenia maszynowego: uczenie maszynowe poprzez język naturalny.

Zalety uczenia maszynowego języka naturalnego

W odróżnieniu od numerycznego uczenia maszynowego, uczenie języka naturalnego oferuje wiele korzyści.

Jednym słowem, jego cechą definiującą jest przytłaczająca efektywność uczenia.

Numeryczne uczenie maszynowe zazwyczaj wymaga dużej ilości danych treningowych i iteracyjnego uczenia. Konieczne jest również wstępne przetwarzanie danych treningowych.

Duża ilość danych treningowych jest potrzebna, ponieważ cechy, których chcemy się nauczyć, nie są zawarte w pojedynczym fragmencie danych, ale są rozproszone w dużej objętości danych.

Z tego powodu wymagane są dane treningowe rzędu kwadratu wymiaru prawdziwie pożądanych cech.

Iteracyjne uczenie jest konieczne, ponieważ zmiana parametrów podczas pojedynczej pętli sprzężenia zwrotnego musi być niewielka, aby zapewnić odpowiednie uczenie parametrów sieci neuronowej bez wpadania w lokalne minima.

Wstępne przetwarzanie danych treningowych, takie jak normalizacja i ekstrakcja krawędzi, jest konieczne, aby uwypuklić prawdziwie pożądane cechy. To wstępne przetwarzanie również wymaga znacznego wysiłku.

Na przykład, gdyby podział obowiązków między działem administracyjnym a działem spraw ogólnych miał być uczony przy użyciu tradycyjnej sieci neuronowej, a jej cechy miały 50 wymiarów, wymagane byłoby co najmniej 1000 lub więcej punktów danych treningowych. Ponadto, te ponad 1000 punktów danych mogłoby wymagać iteracji około 100 razy, aby osiągnąć odpowiednią dokładność uczenia.

Co więcej, jeśli te 1000 punktów danych zawiera zbędne słowa, warianty pisowni słów lub różnorodne porządki słów i składnie, wydajność uczenia spadnie lub zostaną nauczone nieistotne cechy.

Dlatego wstępne przetwarzanie w celu usunięcia zbędnych słów, standaryzacji słownictwa w celu wyeliminowania wariantów oraz ujednolicenia porządku słów i składni jest niezbędne.

Z drugiej strony, uczenie maszynowe języka naturalnego wymaga mniej danych treningowych, nie wymaga iteracji z tymi samymi danymi treningowymi i w wielu przypadkach nie wymaga wstępnego przetwarzania.

Jeśli cechy podziału obowiązków między działem administracyjnym a działem spraw ogólnych mają 50 wymiarów, często wystarczy 50 informacji odpowiadających każdemu wymiarowi.

Co więcej, nie oznacza to, że wymagane jest 50 oddzielnych zdań.

Pojedyncze zdanie, takie jak „Obowiązki związane z A, B, C i D są obsługiwane przez dział administracyjny”, może zawierać informacje dla czterech wymiarów.

Ponadto, poprzez abstrakcję języka, informacje z wielu wymiarów mogą być agregowane. Pojedyncze zdanie, takie jak „Dział administracyjny jest odpowiedzialny za materiały eksploatacyjne budynków i konserwację sprzętu”, agreguje informacje z szerokiego zakresu wymiarów, w tym wymianę żarówek i awarie drzwi automatycznych.

Ta abstrakcja wykorzystuje wstępnie wytrenowaną wiedzę i możliwości rozumowania LLM, zmniejszając tym samym ilość potrzebnych danych treningowych.

I, co najważniejsze, uczenie języka naturalnego nie wymaga uczenia iteracyjnego. Po dodaniu wspomnianego zdania do bazy wiedzy, uczenie jest zakończone.

Ponadto, wstępne przetwarzanie wiedzy nie jest konieczne. Nawet jeśli opisy działów administracyjnych lub spraw ogólnych są wymieszane z różnymi innymi zdaniami, nadal mogą być używane jako wiedza.

Alternatywnie, surowe dane, takie jak logi zapytań i przypisań, jak w poprzednim przykładzie, mogą być natychmiast wykorzystane jako dane treningowe bez wstępnego przetwarzania.

W ten sposób uczenie maszynowe języka naturalnego może uczyć się znacznie efektywniej niż numeryczne uczenie maszynowe.

Podsumowanie

W porównaniu do możliwości szybkich obliczeń numerycznych komputerów, zdolności przetwarzania języka naturalnego przez duże modele językowe są dość wolne.

Jednakże, uczenie maszynowe języka naturalnego pozwala na bardziej efektywne uczenie w porównaniu do numerycznego uczenia maszynowego.

Ta efektywność znacznie przewyższa lukę między szybkimi możliwościami obliczeń numerycznych a wolnymi możliwościami przetwarzania języka naturalnego.

Co więcej, duże modele językowe, które przeszły zadziwiającą ewolucję dzięki uczeniu numerycznemu, wydają się zbliżać do granicy poprawy możliwości poprzez proste skalowanie, zgodnie z prawami skalowania.

W takim przypadku jest bardzo prawdopodobne, że nacisk przesunie się na poprawę możliwości poprzez uczenie maszynowe języka naturalnego.