Перейти до вмісту
Ця стаття була перекладена з японської мови за допомогою ШІ
Читати японською
Ця стаття знаходиться в суспільному надбанні (CC0). Ви можете вільно використовувати її. CC0 1.0 Universal

Механізм уваги як мікро віртуальний інтелект

Сучасний генеративний ШІ — це технологія ШІ, яка розцвіла з винаходом Transformer як великого прориву.

Механізм уваги можна описати як визначальну особливість Transformer. Це стисло виражено в назві статті, що анонсувала Transformer: «Attention Is All You Need».

Передумовою цього було те, що дослідники ШІ того часу докладали різноманітних зусиль і займалися спробами та помилками, щоб дозволити ШІ обробляти природну мову так само майстерно, як люди, називаючи успішні методи та публікуючи статті про них.

Багато дослідників вірили, що, поєднуючи ці численні ефективні механізми різними способами, вони зможуть поступово створити ШІ, здатний обробляти природну мову як люди. Вони зосереджувалися на відкритті нових механізмів, які могли б функціонувати в поєднанні з іншими, і на пошуку оптимальних комбінацій цих механізмів.

Однак Transformer перевернув цю загальноприйняту мудрість. Повідомлення про те, що немає потреби поєднувати різні механізми, і що потрібен лише механізм уваги, було очевидним у назві статті.

Хоча сам Transformer, безперечно, включає різні механізми, безсумнівно, що механізм уваги був особливо новаторським та відмінним серед них.

Огляд механізму уваги

Механізм уваги — це система, яка дозволяє ШІ вивчати, на які слова, серед багатьох, що містяться в попередніх реченнях, він повинен звертати увагу при обробці конкретного слова природною мовою.

Це дозволяє ШІ точно розуміти, на що посилається слово, наприклад, при роботі з вказівними займенниками, такими як «цей», «той» або «вищезгаданий» (вказуючи на слово в попередньому реченні), або посиланнями на позицію, такими як «вступне речення», «другий приклад у списку» або «попередній абзац».

Крім того, він може правильно інтерпретувати модифікатори, навіть якщо вони далеко розташовані в реченні, і навіть у довгих текстах він може інтерпретувати слова, не втрачаючи контексту, до якого відноситься поточне слово, запобігаючи його загубленню серед інших речень.

У цьому полягає користь «уваги».

Навпаки, це означає, що при інтерпретації слова, що обробляється в даний момент, непотрібні слова маскуються та вилучаються з інтерпретації.

Зберігаючи лише слова, необхідні для інтерпретації даного слова, та видаляючи нерелевантні, набір слів для інтерпретації залишається обмеженим до кількох, незалежно від довжини тексту, таким чином запобігаючи розведенню щільності інтерпретації.

Віртуальний інтелект

А тепер, дещо змінивши напрямок, я розмірковував над концепцією віртуального інтелекту.

Наразі, при використанні генеративного ШІ для бізнесу, якщо вся інформація всередині компанії консолідується і надається ШІ як єдина база знань, величезний обсяг знань може стати надмірним, що призведе до явища, коли ШІ не зможе належним чином її обробити.

З цієї причини ефективніше розділяти знання за завданнями, готуючи ШІ-чати для кожного завдання або створюючи ШІ-інструменти, спеціалізовані для конкретних операцій.

Отже, при виконанні складних завдань виникає необхідність комбінувати ці ШІ-чати або ШІ-інструменти, кожен зі своєю відокремленою базою знань.

Хоча це є поточним обмеженням генеративного ШІ, принципово, навіть з майбутнім генеративним ШІ, зосередження виключно на знаннях, необхідних для конкретного завдання, повинно призвести до вищої точності.

Натомість, я вважаю, що майбутній генеративний ШІ зможе внутрішньо розрізняти та використовувати необхідні знання відповідно до ситуації, навіть без того, щоб люди сегментували ці знання.

Ця здатність є віртуальним інтелектом. Це як віртуальна машина, яка може запускати кілька різних операційних систем на одному комп'ютері. Це означає, що в рамках одного інтелекту можуть функціонувати кілька віртуальних інтелектів з різними спеціалізаціями.

Навіть сучасний генеративний ШІ вже може симулювати дискусії між кількома людьми або генерувати історії з кількома персонажами. Тому віртуальний інтелект — це не особлива здатність, а скоріше розширення поточного генеративного ШІ.

Мікро віртуальний інтелект

Механізм віртуального інтелекту, який звужує необхідні знання відповідно до завдання, виконує щось подібне до механізму уваги.

Іншими словами, він аналогічний механізму уваги тим, що він зосереджується і обробляє лише відповідні знання на основі завдання, що виконується в даний момент.

Навпаки, механізм уваги можна назвати механізмом, який реалізує щось подібне до віртуального інтелекту. Однак, тоді як віртуальний інтелект, який я уявляю, обирає відповідні знання з колекції знань, механізм уваги працює на рівні одиниці колекції слів.

З цієї причини механізм уваги можна назвати мікро віртуальним інтелектом.

Явний механізм уваги

Якщо ми розглядатимемо механізм уваги як мікро віртуальний інтелект, тоді, навпаки, віртуальний інтелект, про який я згадував раніше, може бути досягнутий шляхом побудови макромеханізму уваги.

І цей макромеханізм уваги не потрібно додавати до внутрішньої структури великих мовних моделей або включати навчання нейронних мереж.

Це може бути просто явне твердження, написане природною мовою, наприклад: «Виконуючи Завдання А, зверніться до Знань В та Знань С».

Це уточнює знання, необхідні для Завдання А. Це твердження саме по собі є типом знання.

Це можна назвати Явним механізмом уваги. Це твердження можна розглядати як Знання про увагу, яке явно формулює знання, на яких слід зосередитися при виконанні Завдання А.

Крім того, це Знання про увагу може бути згенероване або оновлене генеративним ШІ.

Якщо завдання не вдається виконати через брак знань, Знання про увагу можна оновити, щоб включити додаткові знання як посилання для цього завдання, на основі цього роздуму.

Висновок

Механізм уваги значно покращив можливості генеративного ШІ.

Це був не просто механізм, який випадково спрацював добре; скоріше, як ми бачили тут, сам механізм динамічного звуження інформації, на яку потрібно посилатися в кожній ситуації, здається суттю розвиненого інтелекту.

І, як віртуальний інтелект та явне знання уваги, механізм уваги також є ключем до рекурсивного посилення інтелекту на різних рівнях.