Перейти к содержимому
Эта статья была переведена с японского с помощью ИИ
Читать на японском
Эта статья находится в общественном достоянии (CC0). Чувствуйте себя свободно использовать ее. CC0 1.0 Universal

Механизм внимания как микровиртуальный интеллект

Современный генеративный ИИ — это технология искусственного интеллекта, расцветшая благодаря изобретению Трансформеров, ставшему крупным прорывом.

Механизм внимания — это то, что одной фразой характеризует Трансформер. Это кратко выражено в названии статьи, анонсирующей Трансформер: «Attention is All You Need» (Внимание — это все, что вам нужно).

Это уходит корнями в то, что исследователи ИИ в то время предпринимали различные усилия и попытки, чтобы ИИ мог обрабатывать естественный язык так же искусно, как люди, называя и публикуя статьи о различных успешных методах.

Многие исследователи считали, что, комбинируя эти многочисленные хорошо функционирующие механизмы различными способами, постепенно появится ИИ, способный обрабатывать естественный язык, как люди. Таким образом, они работали над поиском новых механизмов, которые могли бы функционировать в сочетании с другими механизмами, и открытием оптимальных комбинаций этих механизмов.

Однако Трансформер опроверг эту общепринятую мудрость. Сообщение о том, что нет необходимости комбинировать различные механизмы и что все, что нужно, — это механизм внимания, выражено в названии статьи.

Конечно, сам Трансформер включает в себя различные механизмы, но нет сомнений, что среди них механизм внимания был особенно новаторским и отличительным.

Обзор механизма внимания

Механизм внимания — это система, которая в процессе пословной обработки естественного языка может научиться определять, на какие из многих предшествующих слов в предложении ей следует «обращать внимание» при обработке заданного слова.

Это позволяет ей точно понимать, к чему относятся такие слова, как «этот», «тот» или «вышеупомянутый» (которые ссылаются на слова, содержащиеся в предыдущих предложениях), или такие фразы, как «вводное предложение», «второй перечисленный пример» или «предыдущий абзац» (которые указывают на позиции в тексте).

Более того, он может правильно интерпретировать слова, даже когда модификаторы находятся далеко в предложении, и даже когда текст становится длинным, он может интерпретировать его, не теряя контекста текущего слова среди других предложений.

В этом заключается полезность «внимания».

И наоборот, это также означает, что при интерпретации обрабатываемого в данный момент слова ненужные слова маскируются и удаляются из интерпретации.

Сохраняя только слова, необходимые для интерпретации данного слова, и удаляя нерелевантные, набор слов для интерпретации остается ограниченным небольшим числом, независимо от длины текста, что предотвращает разбавление плотности интерпретации.

Виртуальный интеллект

Теперь, немного меняя тему, я размышлял над концепцией виртуального интеллекта.

В настоящее время, при использовании генеративного ИИ в бизнесе, если консолидировать всю информацию внутри компании и предоставить ее в качестве базы знаний генеративному ИИ, сам объем знаний может фактически затруднить его адекватную обработку.

По этой причине лучше работает деление знаний по задачам, подготовка ИИ-чатов для каждой задачи или создание ИИ-инструментов, специализированных для конкретных операций.

Это подразумевает, что для сложных задач становится необходимым комбинировать эти сегментированные ИИ-чаты и инструменты, основанные на знаниях.

Это текущее ограничение при использовании генеративного ИИ, но даже с будущим генеративным ИИ для конкретных задач сосредоточение только на знаниях, необходимых для этой задачи, должно обеспечить более высокую точность.

Вместо этого я считаю, что будущий генеративный ИИ сможет внутренне переключаться между необходимыми наборами знаний в зависимости от ситуации, даже без необходимости людям сегментировать знания.

Эта способность и есть виртуальный интеллект. Это похоже на виртуальную машину, которая может запускать несколько различных операционных систем на одном компьютере. Это означает, что внутри одного интеллекта могут функционировать несколько виртуальных интеллектов с различными специализациями.

Даже современный генеративный ИИ уже может моделировать дискуссии между несколькими людьми или генерировать истории с участием нескольких персонажей. Следовательно, виртуальный интеллект — это не особая способность, а скорее расширение нынешнего генеративного ИИ.

Микровиртуальный интеллект

Механизм виртуального интеллекта, который сужает необходимый объем знаний в соответствии с задачей, выполняет нечто похожее на механизм внимания.

То есть, он схож с механизмом внимания тем, что фокусируется только на релевантных знаниях в зависимости от текущей обрабатываемой задачи.

И наоборот, механизм внимания можно назвать механизмом, который реализует нечто вроде виртуального интеллекта. Однако виртуальный интеллект, который я рассматриваю, — это механизм, который выбирает релевантные знания из набора знаний, тогда как механизм внимания оперирует набором слов.

По этой причине механизм внимания можно назвать микровиртуальным интеллектом.

Явный механизм внимания

Если рассматривать механизм внимания как микровиртуальный интеллект, то, напротив, упомянутый мной ранее виртуальный интеллект может быть реализован путем построения макромеханизма внимания.

И этот макромеханизм внимания не требует добавления во внутреннюю структуру больших языковых моделей или обучения нейронных сетей.

Это может быть просто явное предложение, написанное на естественном языке, например: «При выполнении Задачи А обратитесь к Знанию B и Знанию C».

Это уточняет знания, необходимые для Задачи А. Само это предложение является своего рода знанием.

Это можно назвать явным механизмом внимания. Это предложение можно описать как знание внимания, которое явно указывает на знание, на которое следует сосредоточиться при выполнении Задачи А.

Более того, это знание внимания может быть сгенерировано или обновлено генеративным ИИ.

Если задача не удается из-за отсутствия знаний, то в качестве извлеченного урока знание внимания может быть обновлено, чтобы включить дополнительные знания, на которые следует ссылаться для этой задачи.

Заключение

Механизм внимания значительно улучшил возможности генеративного ИИ.

Это был не просто механизм, который случайно хорошо работал; как мы видели здесь, сам механизм динамического сужения информации, на которую следует ссылаться в каждой ситуации, кажется, является сущностью развитого интеллекта.

И, подобно виртуальному интеллекту и явным знаниям внимания, механизм внимания также является ключом к рекурсивному развитию интеллекта на различных уровнях.