Сучасний генеративний штучний інтелект – це технологія ШІ, яка розквітла завдяки винаходу Трансформерів, що стало значним проривом.
Механізм уваги (Attention Mechanism) – це те, що характеризує Трансформер однією фразою. Це лаконічно виражено в назві статті, яка анонсувала Трансформер: "Attention is All You Need" (Увага – це все, що вам потрібно).
Це сягає корінням у те, що дослідники ШІ того часу докладали різноманітних зусиль та випробувань, щоб дозволити ШІ обробляти природну мову так само вправно, як люди, називаючи та публікуючи статті про різні успішні методи.
Багато дослідників вважали, що шляхом поєднання цих численних добре функціонуючих механізмів різними способами поступово з'явиться ШІ, який зможе обробляти природну мову, як люди. Таким чином, вони працювали над пошуком нових механізмів, які могли б функціонувати в поєднанні з іншими механізмами, та відкриттям оптимальних комбінацій цих механізмів.
Однак Трансформер перевернув цю загальноприйняту мудрість. Повідомлення про те, що немає потреби поєднувати різні механізми, і що все, що потрібно, – це механізм уваги, виражено в назві статті.
Звичайно, сам Трансформер включає різні механізми, але безсумнівно, що серед них механізм уваги був особливо новаторським та виразним.
Огляд механізму уваги
Механізм уваги – це система, яка в процесі обробки природної мови слово за словом може навчитися, на які з багатьох попередніх слів у реченні їй слід "звернути увагу" при обробці даного слова.
Це дозволяє точно розуміти, на що посилаються такі слова, як "цей", "той" або "вищезгаданий" (які відсилають до слів, що містяться в попередніх реченнях), або фрази, як "вступне речення", "другий наведений приклад" або "попередній абзац" (які вказують на позиції в тексті).
Крім того, він може правильно інтерпретувати слова, навіть коли модифікатори знаходяться на відстані в реченні, і навіть коли текст стає довгим, він може інтерпретувати, не втрачаючи контексту поточного слова серед інших речень.
У цьому полягає корисність "уваги".
Навпаки, це також означає, що при інтерпретації слова, яке зараз обробляється, непотрібні слова маскуються та видаляються з інтерпретації.
Зберігаючи лише слова, необхідні для інтерпретації даного слова, та видаляючи нерелевантні, набір слів для інтерпретації залишається обмеженим до невеликої кількості, незалежно від довжини тексту, тим самим запобігаючи розрідженню щільності інтерпретації.
Віртуальний інтелект
Тепер, трохи змінюючи тему, я розмірковував над концепцією віртуального інтелекту.
Наразі, при використанні генеративного ШІ для бізнесу, якщо консолідувати всю інформацію всередині компанії та надати її як знання генеративному ШІ, величезний обсяг знань може фактично ускладнити для ШІ адекватну обробку.
З цієї причини краще розділяти знання за завданнями, готуючи чати ШІ для кожного завдання або створюючи інструменти ШІ, спеціалізовані для конкретних операцій.
Це означає, що для складних завдань стає необхідним поєднання цих сегментованих чатів ШІ та інструментів, що базуються на знаннях.
Це поточне обмеження при використанні генеративного ШІ, але навіть з майбутнім генеративним ШІ, для конкретних завдань, зосередження лише на знаннях, необхідних для цього завдання, повинно забезпечити вищу точність.
Натомість, я вважаю, що майбутній генеративний ШІ зможе внутрішньо перемикатися між необхідними наборами знань залежно від ситуації, навіть без того, щоб люди сегментували ці знання.
Ця здатність є віртуальним інтелектом. Це як віртуальна машина, яка може запускати кілька різних операційних систем на одному комп'ютері. Це означає, що в рамках одного інтелекту можуть функціонувати кілька віртуальних інтелектів з різними спеціалізаціями.
Навіть поточний генеративний ШІ вже може симулювати дискусії між кількома людьми або генерувати історії з кількома персонажами. Тому віртуальний інтелект не є особливою здатністю, а скоріше розширенням поточного генеративного ШІ.
Мікро-віртуальний інтелект
Механізм віртуального інтелекту, який звужує необхідні знання відповідно до завдання, виконує щось подібне до механізму уваги.
Тобто, він схожий на механізм уваги тим, що фокусується лише на релевантних знаннях залежно від завдання, яке наразі обробляється.
Навпаки, механізм уваги можна назвати механізмом, що реалізує щось на зразок віртуального інтелекту. Однак віртуальний інтелект, який я розглядаю, – це механізм, що вибирає релевантні знання з набору знань, тоді як механізм уваги оперує набором слів.
З цієї причини механізм уваги можна назвати мікро-віртуальним інтелектом.
Явний механізм уваги
Якщо розглядати механізм уваги як мікро-віртуальний інтелект, то, навпаки, згаданий мною раніше віртуальний інтелект може бути реалізований шляхом побудови макро-механізму уваги.
І цей макро-механізм уваги не потрібно додавати до внутрішньої структури великих мовних моделей або включати навчання нейронної мережі.
Це може бути просто явне речення, написане природною мовою, наприклад: "При виконанні Завдання А зверніться до Знання Б і Знання В."
Це уточнює знання, необхідні для Завдання А. Це речення саме по собі є видом знання.
Це можна назвати явним механізмом уваги. Це речення можна описати як знання уваги, яке чітко вказує на знання, на які слід зосередитися при виконанні Завдання А.
Крім того, це знання уваги може бути згенероване або оновлене генеративним ШІ.
Якщо завдання не вдається через брак знань, то, як отриманий урок, знання уваги може бути оновлене, щоб включити додаткові знання, на які слід посилатися для цього завдання.
Висновок
Механізм уваги значно покращив можливості генеративного ШІ.
Це був не просто механізм, який випадково добре спрацював; як ми бачили тут, сам механізм динамічного звуження інформації, на яку слід посилатися в кожній ситуації, здається, є суттю передового інтелекту.
І, подібно до віртуального інтелекту та явного знання уваги, механізм уваги також є ключем до рекурсивного розвитку інтелекту на різних рівнях.