Przejdź do treści
Ten artykuł został przetłumaczony z języka japońskiego za pomocą AI
Czytaj po japońsku
Ten artykuł znajduje się w Domenie Publicznej (CC0). Możesz go swobodnie używać. CC0 1.0 Universal

Mechanizm uwagi jako mikro-wirtualna inteligencja

Obecna generatywna sztuczna inteligencja to technologia AI, która rozkwitła dzięki wynalezieniu Transformerów, co było dużym przełomem.

Mechanizm uwagi to w jednym zdaniu to, co charakteryzuje Transformer. Jest to zwięźle wyrażone w tytule artykułu ogłaszającego Transformer: „Attention is All You Need” (Uwaga to wszystko, czego potrzebujesz).

Ma to swoje korzenie w tym, że ówcześni badacze AI podejmowali różne wysiłki i próby, aby umożliwić AI tak samo sprawne posługiwanie się językiem naturalnym, jak ludzie, nazywając i publikując artykuły na temat różnych udanych metod.

Wielu badaczy wierzyło, że poprzez łączenie tych wielu dobrze funkcjonujących mechanizmów w różnorodne sposoby, stopniowo wyłoni się AI, która będzie w stanie obsługiwać język naturalny jak ludzie. Pracowali więc nad znajdowaniem nowych mechanizmów, które mogłyby funkcjonować w połączeniu z innymi mechanizmami, oraz nad odkrywaniem optymalnych kombinacji tych mechanizmów.

Jednak Transformer obalił tę konwencjonalną mądrość. Przesłanie, że nie ma potrzeby łączenia różnych mechanizmów, i że wszystko, czego potrzeba, to mechanizm uwagi, jest wyrażone w tytule artykułu.

Oczywiście sam Transformer zawiera różne mechanizmy, ale nie ma wątpliwości, że wśród nich mechanizm uwagi był szczególnie przełomowy i charakterystyczny.

Przegląd mechanizmu uwagi

Mechanizm uwagi to system, który w procesie przetwarzania języka naturalnego słowo po słowie, potrafi nauczyć się, na które z wielu poprzedzających słów w zdaniu powinien „zwrócić uwagę” podczas przetwarzania danego słowa.

Pozwala to na dokładne zrozumienie, do czego odnoszą się słowa takie jak „ten”, „tamten” lub „wspomniany” (które odnoszą się do słów zawartych w poprzednich zdaniach), lub frazy takie jak „zdanie otwierające”, „drugi wymieniony przykład” lub „poprzedni akapit” (które wskazują pozycje w tekście).

Co więcej, może poprawnie interpretować słowa nawet wtedy, gdy modyfikatory są odległe w zdaniu, a nawet gdy tekst staje się długi, potrafi interpretować bez utraty kontekstu bieżącego słowa wśród innych zdań.

Taka jest użyteczność „uwagi”.

Odwrotnie, oznacza to również, że podczas interpretowania aktualnie przetwarzanego słowa, niepotrzebne słowa są maskowane i usuwane z interpretacji.

Poprzez zachowanie tylko słów niezbędnych do interpretacji danego słowa i usunięcie nieistotnych, zbiór słów do interpretacji pozostaje ograniczony do niewielkiej liczby, niezależnie od długości tekstu, co zapobiega rozrzedzeniu gęstości interpretacji.

Wirtualna Inteligencja

Teraz, nieco zmieniając temat, zastanawiałem się nad koncepcją wirtualnej inteligencji.

Obecnie, podczas wykorzystywania generatywnej sztucznej inteligencji w biznesie, jeśli skonsoliduje się wszystkie informacje w firmie i udostępni je jako wiedzę dla generatywnej AI, sama objętość wiedzy może w rzeczywistości utrudnić AI jej właściwe przetwarzanie.

Z tego powodu, lepiej sprawdza się podział wiedzy według zadań, przygotowując czaty AI dla każdego zadania lub tworząc narzędzia AI wyspecjalizowane w konkretnych operacjach.

Oznacza to, że w przypadku złożonych zadań, konieczne staje się łączenie tych podzielonych na segmenty czatów i narzędzi AI opartych na wiedzy.

Jest to obecne ograniczenie w używaniu generatywnej sztucznej inteligencji, ale nawet w przypadku przyszłej generatywnej AI, dla konkretnych zadań, skupienie się wyłącznie na wiedzy wymaganej do tego zadania powinno zapewnić wyższą dokładność.

Zamiast tego, wierzę, że przyszła generatywna AI będzie w stanie wewnętrznie przełączać się między niezbędnymi zbiorami wiedzy w zależności od sytuacji, nawet bez konieczności segmentowania wiedzy przez ludzi.

Ta zdolność to wirtualna inteligencja. Jest to jak maszyna wirtualna, która może uruchamiać wiele różnych systemów operacyjnych na jednym komputerze. Oznacza to, że w ramach jednej inteligencji może funkcjonować wiele wirtualnych inteligencji o różnych specjalizacjach.

Nawet obecna generatywna AI może już symulować dyskusje między wieloma osobami lub generować historie z udziałem wielu postaci. Dlatego wirtualna inteligencja nie jest specjalną zdolnością, ale raczej rozszerzeniem obecnej generatywnej AI.

Mikro-wirtualna Inteligencja

Mechanizm wirtualnej inteligencji, który zawęża niezbędną wiedzę do danego zadania, działa podobnie do mechanizmu uwagi.

To znaczy, jest podobny do mechanizmu uwagi w tym, że skupia się tylko na odpowiedniej wiedzy w zależności od aktualnie przetwarzanego zadania.

Odwrotnie, mechanizm uwagi można nazwać mechanizmem, który realizuje coś w rodzaju wirtualnej inteligencji. Jednak wirtualna inteligencja, którą rozważam, jest mechanizmem, który wybiera odpowiednią wiedzę ze zbioru wiedzy, podczas gdy mechanizm uwagi działa na zbiorze słów.

Z tego powodu mechanizm uwagi można nazwać mikro-wirtualną inteligencją.

Jawny mechanizm uwagi

Jeśli postrzegamy mechanizm uwagi jako mikro-wirtualną inteligencję, to z kolei wspomniana przeze mnie wcześniej wirtualna inteligencja może zostać zrealizowana poprzez skonstruowanie makro-mechanizmu uwagi.

A ten makro-mechanizm uwagi nie musi być dodawany do wewnętrznej struktury dużych modeli językowych ani obejmować treningu sieci neuronowych.

Może to być po prostu jawne zdanie napisane językiem naturalnym, takie jak: „Wykonując Zadanie A, odwołaj się do Wiedzy B i Wiedzy C”.

To wyjaśnia wiedzę potrzebną do Zadania A. To zdanie samo w sobie jest rodzajem wiedzy.

Można to nazwać jawnym mechanizmem uwagi. To zdanie można opisać jako wiedzę uwagi, która jawnie określa wiedzę, na której należy się skupić podczas wykonywania Zadania A.

Ponadto, ta wiedza uwagi może być generowana lub aktualizowana przez generatywną AI.

Jeśli zadanie zakończy się niepowodzeniem z powodu braku wiedzy, to jako wyciągnięta lekcja, wiedza uwagi może zostać zaktualizowana, aby zawierała dodatkową wiedzę, do której należy się odwołać w tym zadaniu.

Podsumowanie

Mechanizm uwagi radykalnie poprawił możliwości generatywnej sztucznej inteligencji.

Nie był to jedynie mechanizm, który akurat dobrze działał; jak widzieliśmy, sam mechanizm dynamicznego zawężania informacji, do których należy się odwoływać w każdej sytuacji, wydaje się być istotą zaawansowanej inteligencji.

I podobnie jak wirtualna inteligencja i jawna wiedza uwagi, mechanizm uwagi jest również kluczem do rekurencyjnego rozwijania inteligencji na różnych poziomach.