Традиционное машинное обучение функционирует в парадигме, где компьютеры, хорошо справляющиеся с числовыми вычислениями, обучаются на числовых данных и приобретают числовые параметры.
С другой стороны, мы способны обучаться не только с помощью числовых механизмов, но и через язык. Мы организуем и записываем опыт в виде слов, а затем вспоминаем или читаем эти слова, чтобы использовать их.
Большие языковые модели могут аналогичным образом описывать знания, используя слова, и использовать слова, читая их.
Использование больших языковых моделей, которые являются процессорами естественного языка, делает возможным машинное обучение, основанное на естественном языке, а не только на числовых данных.
Следовательно, появление больших языковых моделей открыло новую область: машинное обучение на естественном языке.
Предварительное обучение больших языковых моделей — это традиционное числовое машинное обучение. Описанное здесь машинное обучение на естественном языке относится к новой форме машинного обучения, которая использует предварительно обученные большие языковые модели.
Базовая модель машинного обучения на естественном языке
Машинное обучение на естественном языке имеет как сходства, так и существенные отличия от традиционного числового машинного обучения.
Во-первых, чтобы получить представление о машинном обучении на естественном языке, мы объясним его части, схожие с традиционным числовым машинным обучением, в качестве базовой модели.
Далее мы будем называть предварительно обученную большую языковую модель (БЯМ) — LLM. Обратите внимание, что параметры LLM при этом процессе обучения совершенно не изменяются.
Базовая модель — это обучение с учителем, ориентированное на задачу классификации.
В качестве правильных ответов для обучающих данных подготавливаются несколько пар входных предложений и их классификаций.
Например, предположим, что в компании есть отдел общих вопросов (General Affairs Department) и административный отдел (Administrative Affairs Department).
Эти два отдела имеют разделение обязанностей. Для входных предложений, таких как "Перегорела лампочка в офисе", "Я забыл свой пропуск" или "Я хочу забронировать главный зал в штаб-квартире", классификация указывает, какой отдел — общих вопросов или административный — несет ответственность.
Из этих обучающих данных извлекаются только входные предложения и подаются в LLM.
Здесь, в качестве системного запроса, мы намеренно ограничиваем ответ, заявляя: "Пожалуйста, ответьте, какой отдел, общих вопросов или административный, несет ответственность за этот запрос. Не включайте в свой ответ никаких символов, кроме 'Общие вопросы' или 'Административный'."
Изначально LLM будет генерировать ответы без какого-либо знания об этой компании. Естественно, некоторые ответы будут неверными, в то время как другие могут быть верными случайно.
Для каждого ответа система-учитель определяет, является ли он правильным или неправильным. Затем комбинация входного предложения, ответа LLM и результата суждения сохраняется в базе знаний.
Этот процесс повторяется для примерно половины обучающих данных.
Для оставшейся половины обучающих данных выполняется тот же процесс, но на этот раз вся информация, записанная в базе знаний, добавляется к системному запросу для LLM.
На этом этапе база знаний содержит информацию о разделении обязанностей между отделами общих вопросов и административным отделом этой компании, поэтому вероятность получения правильных ответов должна быть выше, чем с первой половиной данных.
Таким образом, система, сочетающая LLM и базу знаний, может изучить разделение обязанностей между отделами общих вопросов и административным отделом этой компании.
Сам механизм обучения аналогичен традиционному числовому машинному обучению. Разница заключается в том, что результаты обучения отражаются в базе знаний, а не в параметрах нейронной сети внутри LLM. И в базе знаний записывается естественный язык, а не числа.
Это и есть базовая модель машинного обучения на естественном языке.
Реальность базовой модели
Как быстро поймет любой, кто использует большие языковые модели (LLM), этой базовой модели не хватает реализма.
Это потому, что вместо того, чтобы утруждаться определением правильных и неправильных ответов с помощью системы-учителя, можно было бы просто ввести сами обучающие данные в системный промпт с самого начала.
Однако, применив базовую модель и немного изменив сценарий, она приобретает реализм.
Например, предположим, что отделы общих и административных вопросов совместно создают справочную службу, и люди вручную сортируют поступающие запросы по соответствующим отделам.
Можно создать простую систему для добавления этих запросов и результатов их маршрутизации в базу знаний.
Затем, используя эту базу знаний, LLM может взять на себя от людей задачу маршрутизации новых запросов в отделы.
В этом случае, если LLM неверно направит запрос, предназначенный для административного отдела, в отдел общих вопросов, ответственный сотрудник отдела общих вопросов перенаправит запрос обратно в административный отдел. Эта информация о перенаправлении также записывается в базу знаний.
Этот простой механизм записи логов маршрутизации в сочетании с LLM и системой базы знаний стал бы реалистичной моделью обучения с учителем для машинного обучения на естественном языке.
Ключевой момент здесь, опять же, заключается в том, что параметры нейронной сети внутри LLM совершенно не меняются. И результаты обратной связи обучения — это не числовые значения, а скорее коллекции предложений на естественном языке.
Более того, эта система, несомненно, является системой машинного обучения, а не системой человеческого обучения.
Следовательно, это новая форма машинного обучения: машинное обучение с помощью естественного языка.
Преимущества машинного обучения на естественном языке
В отличие от машинного обучения на числовых данных, обучение на естественном языке предлагает множество преимуществ.
Одним словом, его отличительная черта — это ошеломляющая эффективность обучения.
Численное машинное обучение, как правило, требует большого объема обучающих данных и итеративного обучения. Также необходима предварительная обработка обучающих данных.
Большой объем обучающих данных необходим, потому что признаки, которые необходимо изучить, содержатся не в одном фрагменте данных, а распределены по большому объему данных.
По этой причине требуются обучающие данные порядка квадрата размерности действительно желаемых признаков.
Итеративное обучение необходимо, потому что изменение параметров во время одного цикла обратной связи должно быть небольшим, чтобы обеспечить правильное обучение параметров нейронной сети без попадания в локальные оптимумы.
Предварительная обработка обучающих данных, такая как нормализация и выделение границ, необходима для выделения действительно желаемых признаков. Эта предварительная обработка также требует значительных усилий.
Например, если бы разделение обязанностей между административным и общим отделами должно было быть изучено с использованием традиционной нейронной сети, и ее признаки были 50-мерными, потребовалось бы не менее 1000 или более точек обучающих данных. Кроме того, эти 1000+ точек данных, возможно, пришлось бы итерировать примерно 100 раз для достижения адекватной точности обучения.
Более того, если эти 1000 точек данных содержат посторонние слова, вариации в написании слов или различные порядки слов и синтаксис, эффективность обучения снизится, или будут изучены нерелевантные признаки.
Поэтому предварительная обработка для удаления посторонних слов, стандартизации словарного запаса для устранения вариаций и унификации порядка слов и синтаксиса незаменима.
С другой стороны, машинное обучение на естественном языке требует меньше обучающих данных, не требует итерации с теми же обучающими данными и во многих случаях не требует предварительной обработки.
Если признаки разделения обязанностей между административным и общим отделами 50-мерны, часто достаточно 50 единиц информации, соответствующих каждому измерению.
Более того, это не означает, что требуется 50 отдельных предложений.
Одно предложение, например, "Обязанности, связанные с A, B, C и D, выполняются административным отделом", может включать информацию для четырех измерений.
Кроме того, путем абстрагирования языка можно агрегировать информацию из нескольких измерений. Одно предложение, например, "Административный отдел отвечает за расходные материалы для зданий и обслуживание оборудования", агрегирует информацию из широкого спектра измерений, включая замену лампочек и неисправности автоматических дверей.
Эта абстракция использует предварительно обученные знания и возможности рассуждения LLM, тем самым уменьшая объем необходимых обучающих данных.
И, по сути, обучение на естественном языке не требует итеративного обучения. Как только вышеупомянутое предложение добавляется в базу знаний, обучение завершается.
Кроме того, предварительная обработка знаний не требуется. Даже если описания административного или общего отдела смешаны с различными другими предложениями, они все равно могут быть использованы в качестве знаний.
В качестве альтернативы, необработанные данные, такие как журналы запросов и назначений, как в предыдущем примере, могут быть немедленно использованы в качестве обучающих данных без предварительной обработки.
Таким образом, машинное обучение на естественном языке может обучаться гораздо эффективнее, чем машинное обучение на числовых данных.
Заключение
По сравнению с высокоскоростными вычислительными возможностями компьютеров, возможности обработки естественного языка у больших языковых моделей довольно медленны.
Однако машинное обучение на естественном языке позволяет достичь более эффективного обучения по сравнению с численным машинным обучением.
Эта эффективность намного перевешивает разницу между высокоскоростными числовыми вычислениями и медленной обработкой естественного языка.
Кроме того, большие языковые модели, которые прошли удивительную эволюцию благодаря численному обучению, по-видимому, приближаются к пределу улучшения возможностей за счет простого масштабирования, согласно законам масштабирования.
В таком случае весьма вероятно, что акцент сместится на улучшение возможностей посредством машинного обучения на естественном языке.