Tradycyjne uczenie maszynowe działa w paradygmacie, w którym komputery, biegłe w obliczeniach numerycznych, uczą się za pomocą danych numerycznych i nabywają sparametryzowane parametry.
Jednakże ludzie są zdolni do uczenia się nie tylko poprzez mechanizmy numeryczne, ale także poprzez język. Organizujemy i zapisujemy doświadczenia w słowach, a następnie przypominamy sobie, czytamy i wykorzystujemy te słowa.
Duże Modele Językowe (LLM) mogą podobnie opisywać wiedzę słowami i wykorzystywać ją, czytając słowa.
Wykorzystując LLM jako procesory języka naturalnego, możliwe staje się uczenie maszynowe oparte na języku naturalnym, a nie wyłącznie na danych numerycznych.
Z tego powodu pojawienie się LLM otworzyło nową dziedzinę: uczenie maszynowe w języku naturalnym.
Wstępne szkolenie LLM jest formą tradycyjnego numerycznego uczenia maszynowego. Uczenie maszynowe w języku naturalnym, o którym mowa w tym artykule, odnosi się do nowego typu uczenia maszynowego, które wykorzystuje wstępnie wytrenowane LLM.
Podstawowy Model Uczenia Maszynowego w Języku Naturalnym
Uczenie maszynowe w języku naturalnym posiada aspekty podobne do konwencjonalnego uczenia maszynowego opartego na danych liczbowych, a także aspekty całkowicie odmienne.
Aby najpierw zrozumieć koncepcję uczenia maszynowego w języku naturalnym, opiszmy podstawowy model, koncentrując się na częściach, które przypominają tradycyjne uczenie maszynowe oparte na danych liczbowych.
Od tego momentu wstępnie wytrenowany Duży Model Językowy będzie nazywany LLM. Należy zauważyć, że parametry LLM w ogóle nie zmieniają się podczas tego procesu uczenia się.
Podstawowy model jest modelem uczenia nadzorowanego, ukierunkowanym na problemy klasyfikacyjne.
Dla danych uczących przygotowuje się wiele par zdań wejściowych i ich klasyfikacji jako poprawne odpowiedzi.
Na przykład, załóżmy, że firma posiada Dział Spraw Ogólnych i Dział Spraw Administracyjnych.
Te dwa działy mają odrębne role. Dla zdań wejściowych, takich jak „Żarówka w biurze się wypaliła”, „Zapomniałem karty dostępu” lub „Chcę zarezerwować główną salę w centrali”, klasyfikacja wskazuje, który dział, Spraw Ogólnych czy Spraw Administracyjnych, jest odpowiedzialny.
Z tych danych treningowych, tylko zdania wejściowe są wyodrębniane i wprowadzane do LLM.
Tutaj celowo ograniczamy odpowiedź za pomocą systemowego promptu, np. „Proszę podać, czy za to zapytanie odpowiada Dział Spraw Ogólnych, czy Dział Spraw Administracyjnych. Nie należy umieszczać w odpowiedzi żadnych znaków innych niż ‘Dział Spraw Ogólnych’ lub ‘Dział Spraw Administracyjnych’”.
Początkowo LLM generuje odpowiedź bez znajomości tej firmy. Naturalnie, może być ona niepoprawna, lub czasami przypadkowo poprawna.
Dla każdej odpowiedzi system uczący określa, czy jest ona poprawna, czy niepoprawna. Następnie kombinacja zdania wejściowego, odpowiedzi LLM i wyniku oceny jest zapisywana w bazie wiedzy.
Proces ten jest powtarzany dla około połowy danych treningowych.
Dla pozostałej połowy danych treningowych, wszystkie informacje zarejestrowane w bazie wiedzy są dodawane do promptu systemowego dla LLM, i wykonywany jest ten sam proces.
W tym momencie baza wiedzy zawiera informacje o podziale obowiązków między Działem Spraw Ogólnych a Działem Spraw Administracyjnych tej firmy, więc prawdopodobieństwo poprawnej odpowiedzi powinno być wyższe niż w przypadku pierwszej połowy danych.
W ten sposób system łączący LLM i bazę wiedzy może nauczyć się podziału obowiązków dla Działu Spraw Ogólnych i Działu Spraw Administracyjnych firmy.
Sam mechanizm uczenia się jest podobny do tradycyjnego uczenia maszynowego opartego na danych liczbowych. Różnica polega na tym, że wyniki uczenia są odzwierciedlane w bazie wiedzy, a nie w parametrach sieci neuronowej wewnątrz LLM. Ponadto, baza wiedzy rejestruje język naturalny, a nie wartości liczbowe.
To jest podstawowy model uczenia maszynowego w języku naturalnym.
Realizm Podstawowego Modelu
Ci, którzy korzystają z LLM, szybko zdadzą sobie sprawę, że ten podstawowy modelowi brakuje realizmu.
Dzieje się tak, ponieważ nie ma potrzeby angażowania się w trudności związane z tym, aby system dydaktyczny określał, czy oceny są poprawne/niepoprawne; można by po prostu wprowadzić same dane treningowe do promptu systemowego od samego początku.
Jednakże, stosując podstawowy model i nieznacznie zmieniając scenariusz, zyskuje on na realizmie.
Na przykład, wyobraźmy sobie, że Dział Spraw Ogólnych i Dział Spraw Administracyjnych wspólnie tworzą punkt obsługi zapytań, a człowiek ręcznie przydziela każde przychodzące zapytanie do odpowiedniego działu.
Zbudowany zostaje prosty system, który dodaje te zapytania i wyniki ich przydziału do bazy wiedzy.
Następnie, korzystając z tej bazy wiedzy, LLM może przejąć od ludzi zadanie przydzielania nowych zapytań do działów.
W tym przypadku, jeśli LLM niepoprawnie przypisze zapytanie przeznaczone dla Działu Spraw Administracyjnych do Działu Spraw Ogólnych, pracownicy Działu Spraw Ogólnych przydzielą zapytanie ponownie do Działu Spraw Administracyjnych. Informacja o tym ponownym przydzieleniu jest również rejestrowana w bazie wiedzy.
Ten prosty mechanizm rejestrowania logów przydziałów, połączony z LLM i bazą wiedzy, stanowiłby realistyczny nadzorowany model uczenia maszynowego w języku naturalnym.
Kluczową kwestią jest tutaj, co należy ponownie podkreślić, że parametry sieci neuronowej wewnątrz LLM w ogóle się nie zmieniają. Co więcej, wynik uczenia zwrotnego to zbiór zdań w języku naturalnym, a nie wartości liczbowe.
I, bez wątpienia, ten system obejmuje uczenie maszynowe, a nie uczenie się przez człowieka.
Dlatego jest to nowa forma uczenia maszynowego: uczenie maszynowe w języku naturalnym.
Mocne Strony Uczenia Maszynowego w Języku Naturalnym
W przeciwieństwie do uczenia maszynowego opartego na danych liczbowych, uczenie w języku naturalnym oferuje wiele zalet.
Jednym słowem, jego cechą definiującą jest niezwykle wysoka efektywność uczenia się.
Numeryczne uczenie maszynowe zazwyczaj wymaga dużej ilości danych treningowych i iteracyjnego uczenia się. Ponadto, niezbędne jest również wstępne przetwarzanie danych treningowych.
Duża ilość danych treningowych jest potrzebna, ponieważ cechy, które mają być nauczone, nie są zawarte w pojedynczym elemencie danych, ale są rozproszone wśród ogromnej ilości danych.
Z tego powodu wymagane są dane treningowe rzędu kwadratu wymiarowości prawdziwie pożądanych cech.
Uczenie iteracyjne jest konieczne, aby zapewnić, że parametry sieci neuronowej zostaną odpowiednio nauczone bez wpadania w lokalne minima, co wymaga utrzymywania niewielkich zmian parametrów przy każdym sprzężeniu zwrotnym.
Wstępne przetwarzanie danych treningowych, takie jak normalizacja i ekstrakcja krawędzi, jest potrzebne do uwypuklenia prawdziwie pożądanych cech. To wstępne przetwarzanie również wymaga znacznego wysiłku.
Na przykład, gdyby podział obowiązków między Działem Administracyjnym a Działem Spraw Ogólnych miał być nauczony przy użyciu tradycyjnej sieci neuronowej, a jego cechy byłyby 50-wymiarowe, wymagane byłoby co najmniej około 1000 lub więcej instancji danych treningowych. Ponadto, te ponad 1000 instancji danych mogłyby wymagać iteracyjnego uczenia około 100 razy, aby osiągnąć odpowiednią dokładność uczenia.
Co więcej, jeśli ten zestaw 1000 instancji danych treningowych zawierałby zbędne słowa, wariacje w pisowni lub różnorodne szyki wyrazów i struktury zdań, efektywność uczenia spadłaby, a niepowiązane cechy mogłyby zostać nauczone.
Dlatego niezbędne jest wstępne przetwarzanie w celu usunięcia zbędnych słów, standaryzacji terminologii w celu wyeliminowania wariacji oraz ujednolicenia szyku wyrazów i składni.
W przeciwieństwie do tego, uczenie maszynowe w języku naturalnym wymaga mniej danych treningowych, nie wymaga iteracji z tymi samymi danymi treningowymi i często nie wymaga wstępnego przetwarzania.
Jeśli cechy podziału obowiązków między Działem Administracyjnym a Działem Spraw Ogólnych są 50-wymiarowe, wystarczy 50 informacji odpowiadających każdemu wymiarowi.
Co więcej, nie oznacza to, że wymagane jest 50 oddzielnych zdań.
Jedno zdanie, takie jak „Obowiązki związane z A, B, C i D są obsługiwane przez Dział Administracyjny”, może obejmować cztery wymiary informacji.
Ponadto, poprzez abstrakcję języka, można agregować informacje z wielu wymiarów. Zdanie takie jak „Konserwacja materiałów eksploatacyjnych i urządzeń budowlanych należy do obowiązków Działu Administracyjnego” agreguje szeroki zakres informacji wymiarowych, w tym wymianę żarówek i awarie drzwi automatycznych.
Można powiedzieć, że ta abstrakcja zmniejsza ilość danych treningowych poprzez wykorzystanie wstępnie wytrenowanej wiedzy i zdolności rozumowania LLM.
I zasadniczo, uczenie się w języku naturalnym nie wymaga iteracyjnego uczenia się. Po dodaniu wspomnianego zdania do bazy wiedzy, uczenie jest zakończone.
Dodatkowo, wstępne przetwarzanie wiedzy jest zbędne. Nawet jeśli wyjaśnienia dotyczące Działu Administracyjnego lub Działu Spraw Ogólnych są wymieszane w różnych tekstach, nadal mogą być wykorzystywane jako wiedza.
Lub, jak w poprzednim przykładzie, surowe dane, takie jak zapisy zapytań i przydziałów, mogą być natychmiast użyte jako dane treningowe bez wstępnego przetwarzania.
W ten sposób uczenie maszynowe w języku naturalnym może uczyć się znacznie wydajniej niż uczenie maszynowe oparte na danych liczbowych.
Podsumowanie
W porównaniu z szybką zdolnością komputerów do obliczeń numerycznych, zdolność dużych modeli językowych do przetwarzania języka naturalnego jest dość powolna.
Jednak uczenie maszynowe w języku naturalnym umożliwia efektywne uczenie się, znacznie przekraczając lukę między szybkimi obliczeniami numerycznymi a powolnym przetwarzaniem języka naturalnego.
Co więcej, duże modele językowe, które poczyniły zdumiewające postępy dzięki uczeniu numerycznemu, wydają się zbliżać do granic poprawy wydajności poprzez proste skalowanie w górę, zgodnie z prawami skalowania.
W takim scenariuszu jest wysoce prawdopodobne, że nacisk przesunie się na zwiększanie możliwości poprzez uczenie maszynowe w języku naturalnym.