Перейти к содержимому
Эта статья была переведена с японского с помощью ИИ
Читать на японском
Эта статья находится в общественном достоянии (CC0). Чувствуйте себя свободно использовать ее. CC0 1.0 Universal

Машинное обучение на естественном языке

Традиционное машинное обучение действует в парадигме, где компьютеры, хорошо справляющиеся с числовыми вычислениями, обучаются с использованием числовых данных и приобретают количественные параметры.

Однако люди способны учиться не только с помощью числовых механизмов, но и посредством языка. Мы организуем и записываем опыт словами, а затем вспоминаем, читаем и используем эти слова.

Большие языковые модели (LLM) могут аналогичным образом описывать знания словами и использовать знания, читая слова.

Используя LLM в качестве процессоров естественного языка, становится возможным машинное обучение на основе естественного языка, а не исключительно на основе числовых данных.

По этой причине появление LLM открыло новую область: машинное обучение на естественном языке.

Предварительное обучение LLM — это форма традиционного числового машинного обучения. Обсуждаемое здесь машинное обучение на естественном языке относится к новому типу машинного обучения, которое использует предварительно обученные LLM.

Базовая модель машинного обучения на естественном языке

Машинное обучение на естественном языке обладает как сходствами, так и кардинальными отличиями от традиционного числового машинного обучения.

Для начала, чтобы лучше понять концепцию машинного обучения на естественном языке, давайте опишем базовую модель, сосредоточившись на тех ее частях, которые напоминают традиционное числовое машинное обучение.

Далее предварительно обученная большая языковая модель будет называться LLM. Обратите внимание, что параметры LLM не изменяются в процессе этого обучения.

Базовая модель представляет собой модель обучения с учителем, предназначенную для задач классификации.

В качестве обучающих данных используются несколько пар входных предложений и их классификаций, выступающих в роли правильных ответов.

Например, представим, что в компании есть Отдел общих вопросов и Отдел административных вопросов.

Эти два отдела имеют различные обязанности. Для входных предложений, таких как «В офисе перегорела лампочка», «Я забыл пропуск» или «Я хочу забронировать главный зал в штаб-квартире», классификация указывает, какой отдел — Общих вопросов или Административных вопросов — отвечает за выполнение запроса.

Из этих обучающих данных извлекаются только входные предложения и подаются на вход LLM.

Здесь мы намеренно ограничиваем ответ с помощью системного промпта, например: «Пожалуйста, укажите, какой отдел отвечает за этот запрос: Отдел общих вопросов или Отдел административных вопросов. Не включайте в свой ответ никаких символов, кроме „Отдел общих вопросов“ или „Отдел административных вопросов“».

Изначально LLM генерирует ответ, не имея знаний о компании. Естественно, он может быть неверным или случайно правильным.

Для каждого ответа обучающая система определяет, верен он или не верен. Затем комбинация входного предложения, ответа LLM и результата оценки сохраняется в базе знаний.

Этот процесс повторяется примерно для половины обучающих данных.

Для оставшейся половины обучающих данных вся информация, записанная в базе знаний, добавляется к системному промпту LLM, и выполняется тот же процесс.

На этом этапе база знаний содержит информацию о распределении обязанностей между Отделом общих вопросов и Отделом административных вопросов этой компании, поэтому вероятность правильного ответа должна быть выше, чем с первой половиной данных.

Таким образом, система, объединяющая LLM и базу знаний, может изучить распределение обязанностей для Отдела общих вопросов и Отдела административных вопросов компании.

Сам механизм обучения аналогичен традиционному числовому машинному обучению. Разница заключается в том, что результаты обучения отражаются в базе знаний, а не в параметрах нейронной сети внутри LLM. Кроме того, база знаний записывает естественный язык, а не числовые значения.

Это базовая модель машинного обучения на естественном языке.

Реалистичность базовой модели

Как быстро поймут те, кто использует LLM, эта базовая модель лишена реализма.

Это потому, что нет необходимости прилагать усилия, чтобы система обучения определяла правильность/неправильность суждений; можно было бы просто ввести сами обучающие данные в системный промпт с самого начала.

Однако, применив базовую модель и немного изменив сценарий, она обретает реализм.

Например, представьте, что Отдел общих вопросов и Отдел административных вопросов совместно создают службу поддержки, и человек вручную назначает каждый входящий запрос соответствующему отделу.

Создается простая система для добавления этих запросов и результатов их назначения в базу знаний.

Затем, используя эту базу знаний, LLM может взять на себя роль человека и назначать новые запросы отделам.

В этом случае, если LLM ошибочно назначит запрос, предназначенный для Отдела административных вопросов, Отделу общих вопросов, сотрудники Отдела общих вопросов перенаправят запрос обратно в Отдел административных вопросов. Эта информация о переназначении также записывается в базу знаний.

Этот простой механизм записи логов назначений в сочетании с LLM и базой знаний составил бы реалистичную модель обучения с учителем для машинного обучения на естественном языке.

Ключевым моментом здесь, повторюсь, является то, что параметры нейронной сети внутри LLM совершенно не меняются. Более того, результат обучения с обратной связью представляет собой набор предложений на естественном языке, а не числовые значения.

И, несомненно, эта система включает машинное обучение, а не человеческое.

Следовательно, это новая форма машинного обучения: машинное обучение на естественном языке.

Преимущества машинного обучения на естественном языке

В отличие от числового машинного обучения, обучение на естественном языке предлагает множество преимуществ.

Одним словом, его отличительная черта — чрезвычайно высокая эффективность обучения.

Числовое машинное обучение обычно требует большого объема обучающих данных и итеративного обучения. Кроме того, необходима предварительная обработка обучающих данных.

Большой объем обучающих данных требуется потому, что признаки, которые необходимо изучить, содержатся не в одной части данных, а распределены по огромному количеству данных.

По этой причине требуются обучающие данные порядка квадрата размерности истинно желаемых признаков.

Итеративное обучение необходимо для обеспечения надлежащего обучения параметров нейронной сети без попадания в локальные минимумы, что требует сохранения небольшого изменения параметров при каждой обратной связи.

Предварительная обработка обучающих данных, такая как нормализация и выделение границ, необходима для выделения истинно желаемых признаков. Эта предварительная обработка также требует значительных усилий.

Например, если бы разделение обязанностей между Отделом административных вопросов и Отделом общих вопросов должно было быть изучено с использованием традиционной нейронной сети, и ее признаки были 50-мерными, потребовалось бы как минимум около 1000 или более экземпляров обучающих данных. Кроме того, эти более 1000 экземпляров данных, возможно, пришлось бы итеративно обучать около 100 раз для достижения адекватной точности обучения.

Более того, если этот набор из 1000 экземпляров обучающих данных содержит лишние слова, варианты написания или разнообразные порядки слов и структуры предложений, эффективность обучения снижается, и могут быть изучены несвязанные признаки.

Поэтому предварительная обработка для удаления лишних слов, стандартизации терминологии для устранения вариаций и унификации порядка слов и синтаксиса необходима.

Напротив, машинное обучение на естественном языке требует меньше обучающих данных, не требует итераций с одними и теми же обучающими данными и часто не требует предварительной обработки.

Если признаки для разделения обязанностей между Отделом административных вопросов и Отделом общих вопросов 50-мерные, достаточно 50 единиц информации, соответствующих каждому измерению.

Более того, это не означает, что требуется 50 отдельных предложений.

Одно предложение, например: «Обязанности, связанные с A, B, C и D, обрабатываются Отделом административных вопросов», может охватывать четыре измерения информации.

Кроме того, путем абстрагирования языка информация из нескольких измерений может быть агрегирована. Предложение, такое как: «Обслуживание расходных материалов и оборудования здания является обязанностью Отдела административных вопросов», агрегирует широкий спектр многомерной информации, включая замену лампочек и неисправности автоматических дверей.

Можно сказать, что эта абстракция сокращает обучающие данные за счет использования предварительно обученных знаний и возможностей рассуждения LLM.

И, по сути, обучение на естественном языке не требует итеративного обучения. Как только упомянутое предложение добавляется в базу знаний, обучение завершено.

Кроме того, предварительная обработка знаний не нужна. Даже если объяснения Отдела административных вопросов или Отдела общих вопросов смешаны в различных текстах, они все равно могут быть использованы в качестве знаний.

Или, как в предыдущем примере, необработанные данные, такие как записи запросов и назначений, могут быть немедленно использованы в качестве обучающих данных без предварительной обработки.

Таким образом, машинное обучение на естественном языке может учиться гораздо эффективнее, чем числовое машинное обучение.

Заключение

По сравнению с высокоскоростными возможностями числовых вычислений компьютеров, способность больших языковых моделей к обработке естественного языка довольно низка.

Однако машинное обучение на естественном языке позволяет достичь эффективного обучения, намного превосходя разрыв между высокоскоростными числовыми вычислениями и медленной обработкой естественного языка.

Более того, большие языковые модели, достигшие поразительного прогресса благодаря числовому обучению, по-видимому, приближаются к пределам улучшения производительности за счет простого масштабирования, согласно законам масштабирования.

В таком сценарии весьма вероятно, что акцент сместится на повышение возможностей за счет машинного обучения на естественном языке.