Перейти к содержимому
Эта статья была переведена с японского с помощью ИИ
Читать на японском
Эта статья находится в общественном достоянии (CC0). Чувствуйте себя свободно использовать ее. CC0 1.0 Universal

Механизм внимания как микровиртуальный интеллект

Современный генеративный ИИ — это технология ИИ, расцветшая благодаря изобретению Трансформера, ставшего крупным прорывом.

Механизм внимания можно назвать определяющей чертой Трансформера. Это кратко выражено в названии статьи, анонсирующей Трансформер: «Внимание — это все, что вам нужно» (Attention Is All You Need).

Подоплекой этого стало то, что тогдашние исследователи ИИ прилагали различные усилия и занимались методом проб и ошибок, чтобы ИИ мог обрабатывать естественный язык так же умело, как и люди, называя успешные методы и публикуя о них статьи.

Многие исследователи полагали, что, комбинируя эти многочисленные эффективные механизмы различными способами, они смогут постепенно создать ИИ, способный обрабатывать естественный язык подобно людям. Они сосредоточились на открытии новых механизмов, которые могли бы функционировать в сочетании с другими, и на поиске оптимальных комбинаций этих механизмов.

Однако Трансформер опроверг эту общепринятую мудрость. Сообщение о том, что нет необходимости комбинировать различные механизмы и что нужен только Механизм внимания, было очевидно из названия статьи.

Хотя сам Трансформер, безусловно, включает различные механизмы, нет сомнений, что Механизм внимания был среди них особенно новаторским и отличительным.

Обзор механизма внимания

Механизм внимания — это система, которая позволяет ИИ определять, на какие слова из множества содержащихся в предыдущих предложениях ему следует обращать внимание при обработке конкретного слова на естественном языке.

Это позволяет ИИ точно понимать, к чему относится слово, например, при работе с указательными местоимениями типа «этот», «тот» или «вышеупомянутый» (указывающими на слово в предыдущем предложении), или с позиционными отсылками типа «вводное предложение», «второй перечисленный пример» или «предыдущий абзац».

Кроме того, он может правильно интерпретировать определения, даже если они находятся далеко друг от друга в предложении, и даже в длинных текстах он может интерпретировать слова, не теряя контекста, к которому относится текущее слово, предотвращая его потерю среди других предложений.

В этом и заключается польза «внимания».

И наоборот, это означает, что при интерпретации обрабатываемого в данный момент слова ненужные слова маскируются и удаляются из интерпретации.

Сохраняя только слова, необходимые для интерпретации заданного слова, и удаляя нерелевантные, набор слов для интерпретации остается ограниченным несколькими, независимо от длины текста, что предотвращает размывание плотности интерпретации.

Виртуальный интеллект

Теперь, немного меняя тему, я размышляю о концепции виртуального интеллекта.

В настоящее время, при использовании генеративного ИИ в бизнесе, если вся информация внутри компании консолидируется и предоставляется ИИ как единая база знаний, огромный объем знаний может стать подавляющим, что приводит к феномену, когда ИИ не может должным образом ее обрабатывать.

По этой причине эффективнее разделять знания по задачам, подготавливая ИИ-чаты для каждой задачи или создавая ИИ-инструменты, специализированные для конкретных операций.

Следовательно, при выполнении сложных задач становится необходимым комбинировать эти ИИ-чаты или ИИ-инструменты, каждый из которых обладает своей сегментированной базой знаний.

Хотя это представляет собой текущее ограничение генеративного ИИ, принципиально, даже с будущим генеративным ИИ, сосредоточение исключительно на знаниях, необходимых для конкретной задачи, должно привести к более высокой точности.

Вместо этого я считаю, что будущий генеративный ИИ сможет внутренне различать и использовать необходимые знания в соответствии с ситуацией, даже без необходимости сегментировать эти знания человеком.

Эта способность — виртуальный интеллект. Это похоже на виртуальную машину, которая может запускать несколько разных операционных систем на одном компьютере. Это означает, что в рамках единого интеллекта могут функционировать несколько виртуальных интеллектов с различными специализациями.

Даже современный генеративный ИИ уже может имитировать дискуссии между несколькими людьми или генерировать истории с несколькими персонажами. Поэтому виртуальный интеллект — это не особая способность, а скорее расширение возможностей современного генеративного ИИ.

Микровиртуальный интеллект

Механизм виртуального интеллекта, который сужает необходимый объем знаний в соответствии с задачей, выполняет нечто схожее с механизмом внимания.

Иными словами, он аналогичен механизму внимания тем, что сосредоточивается и обрабатывает только релевантные знания на основе выполняемой в данный момент задачи.

И наоборот, механизм внимания можно назвать механизмом, который реализует нечто, подобное виртуальному интеллекту. Однако, если виртуальный интеллект, который я себе представляю, выбирает релевантные знания из совокупности знаний, то механизм внимания оперирует на уровне совокупности слов.

По этой причине механизм внимания можно назвать микровиртуальным интеллектом.

Явный механизм внимания

Если мы рассматриваем механизм внимания как микровиртуальный интеллект, то, наоборот, упомянутый мной ранее виртуальный интеллект может быть реализован путем создания макромеханизма внимания.

И этот макромеханизм внимания не требует добавления во внутреннюю структуру больших языковых моделей или обучения нейронных сетей.

Это может быть просто явное утверждение, написанное на естественном языке, например: «При выполнении Задачи А ссылайтесь на Знание Б и Знание В».

Это уточняет знания, необходимые для Задачи А. Само это утверждение является своего рода знанием.

Это можно было бы назвать явным механизмом внимания. Это утверждение можно рассматривать как Знания внимания, которые явно формулируют знания, на которые следует обратить внимание при выполнении Задачи А.

Более того, эти Знания внимания могут быть сгенерированы или обновлены генеративным ИИ.

Если задача не выполняется из-за недостатка знаний, Знания внимания могут быть обновлены, чтобы включить дополнительные знания в качестве ссылки для этой задачи, основываясь на этом размышлении.

Заключение

Механизм внимания значительно расширил возможности генеративного ИИ.

Это был не просто механизм, который случайно оказался эффективным; скорее, как мы видели, сам механизм динамического сужения информации, на которую следует ссылаться в каждой ситуации, по-видимому, является сущностью развитого интеллекта.

И, подобно виртуальному интеллекту и явным знаниям внимания, механизм внимания также является ключом к рекурсивному повышению интеллекта на различных уровнях.