Перейти до вмісту
Ця стаття була перекладена з японської мови за допомогою ШІ
Читати японською
Ця стаття знаходиться в суспільному надбанні (CC0). Ви можете вільно використовувати її. CC0 1.0 Universal

Машинне навчання природної мови

Традиційне машинне навчання функціонує в парадигмі, де комп’ютери, вправні в числових обчисленнях, навчаються за допомогою числових даних і набувають кількісно визначених параметрів.

Однак люди здатні навчатися не лише за допомогою числових механізмів, а й за допомогою мови. Ми організовуємо та записуємо досвід словами, а потім згадуємо, читаємо та використовуємо ці слова.

Великі мовні моделі (ВММ) так само можуть описувати знання словами та використовувати знання, читаючи слова.

Використовуючи ВММ як процесори природної мови, стає можливим машинне навчання, засноване на природній мові, а не виключно на числовій.

З цієї причини поява ВММ відкрила нову галузь: машинне навчання природної мови.

Попереднє навчання ВММ є формою традиційного числового машинного навчання. Обговорюване тут машинне навчання природної мови стосується нового типу машинного навчання, який використовує попередньо навчені ВММ.

Базова модель машинного навчання природної мови

Машинне навчання природної мови має як аспекти, схожі на традиційне числове машинне навчання, так і аспекти, що повністю відрізняються.

Щоб спочатку зрозуміти концепцію машинного навчання природної мови, опишемо базову модель, зосереджуючись на частинах, що нагадують традиційне числове машинне навчання.

Надалі попередньо навчена велика мовна модель буде називатися ВММ. Зверніть увагу, що параметри ВММ абсолютно не змінюються під час цього процесу навчання.

Базова модель є моделлю керованого навчання, що націлена на задачі класифікації.

Для даних навчання готується кілька пар вхідних речень та їх класифікацій як правильні відповіді.

Наприклад, припустимо, компанія має Відділ загальних справ та Адміністративний відділ.

Ці два відділи мають різні ролі. Для вхідних речень, таких як «Перегоріла лампочка в офісі», «Я забув свою перепустку» або «Хочу забронювати головний зал у головному офісі», класифікація вказує, який відділ, Загальних справ чи Адміністративний, відповідає.

З цих навчальних даних витягуються лише вхідні речення та подаються до ВММ.

Тут ми навмисно обмежуємо відповідь за допомогою системного запиту, наприклад: «Будь ласка, вкажіть, чи є відповідальним відділом за цей запит Відділ загальних справ або Адміністративний відділ. Не включайте жодних символів, крім „Відділу загальних справ“ або „Адміністративного відділу“, у вашу відповідь».

Спочатку ВММ генерує відповідь без знання про цю компанію. Звісно, вона може бути неправильною, або випадково правильною.

Для кожної відповіді система навчання визначає, правильна вона чи неправильна. Потім комбінація вхідного речення, відповіді ВММ та результату судження зберігається в базі знань.

Цей процес повторюється приблизно для половини навчальних даних.

Для решти половини навчальних даних вся інформація, записана в базі знань, додається до системного запиту для ВММ, і виконується той самий процес.

На цьому етапі база знань містить інформацію про розподіл обов'язків між Відділом загальних справ та Адміністративним відділом цієї компанії, тому ймовірність правильної відповіді має бути вищою, ніж з першою половиною даних.

Таким чином, система, що поєднує ВММ та базу знань, може вивчати розподіл обов'язків Відділу загальних справ та Адміністративного відділу компанії.

Сам механізм навчання схожий на традиційне числове машинне навчання. Відмінність полягає в тому, що результати навчання відображаються в базі знань, а не в параметрах нейронної мережі всередині ВММ. Крім того, база знань записує природну мову, а не числові значення.

Це базова модель машинного навчання природної мови.

Реалістичність базової моделі

Як швидко зрозуміють ті, хто використовує ВММ, цій базовій моделі бракує реалізму.

Це тому, що немає потреби витрачати зусилля на те, щоб система навчання визначала правильні/неправильні судження; можна було б просто ввести самі навчальні дані в системний запит із самого початку.

Однак, застосувавши базову модель і дещо змінивши сценарій, вона набуває реалізму.

Наприклад, уявіть, що Відділ загальних справ та Адміністративний відділ спільно створюють довідкову службу, і людина вручну призначає кожен вхідний запит відповідному відділу.

Створюється проста система для додавання цих запитів та результатів їх призначення до бази знань.

Потім, використовуючи цю базу знань, ВММ може замінити людей та призначати нові запити відділам.

У цьому випадку, якщо ВММ неправильно призначить запит, призначений для Адміністративного відділу, до Відділу загальних справ, співробітники Відділу загальних справ перепризначать запит назад до Адміністративного відділу. Ця інформація про перепризначення також записується в базу знань.

Цей простий механізм запису журналів призначень, у поєднанні з ВММ та базою знань, становив би реалістичну модель керованого машинного навчання природної мови.

Ключовий момент тут, щоб повторити, полягає в тому, що параметри нейронної мережі всередині ВММ зовсім не змінюються. Більше того, результат зворотного навчання є сукупністю речень природної мови, а не числових значень.

І, без сумніву, ця система передбачає машинне навчання, а не людське.

Отже, це нова форма машинного навчання: машинне навчання природної мови.

Переваги машинного навчання природної мови

На відміну від числового машинного навчання, навчання природної мови пропонує багато переваг.

Коротко кажучи, його відмінною рисою є надзвичайно висока ефективність навчання.

Числове машинне навчання зазвичай вимагає великої кількості навчальних даних та ітеративного навчання. Крім того, необхідна також попередня обробка навчальних даних.

Велика кількість навчальних даних потрібна тому, що ознаки, які потрібно вивчити, не містяться в єдиному фрагменті даних, а розподілені серед великої кількості даних.

З цієї причини потрібні навчальні дані порядку квадрата розмірності справді бажаних ознак.

Ітеративне навчання необхідне для забезпечення належного навчання параметрів нейронної мережі без потрапляння в локальні мінімуми, що вимагає збереження невеликої зміни параметрів при кожному зворотному зв'язку.

Попередня обробка навчальних даних, така як нормалізація та виділення країв, необхідна для підкреслення справді бажаних ознак. Ця попередня обробка також вимагає значних зусиль.

Наприклад, якби поділ обов'язків між Адміністративним відділом та Відділом загальних справ мав бути вивчений за допомогою традиційної нейронної мережі, і його ознаки були 50-вимірними, знадобилося б принаймні приблизно 1000 або більше прикладів навчальних даних. Крім того, ці 1000+ прикладів даних, можливо, потрібно було б ітеративно вивчати близько 100 разів, щоб досягти належної точності навчання.

Крім того, якщо цей набір з 1000 прикладів навчальних даних містить зайві слова, варіації в написанні або різноманітні порядки слів та структури речень, ефективність навчання знижується, і можуть бути вивчені непов'язані ознаки.

Тому попередня обробка для видалення зайвих слів, стандартизації термінології для усунення варіацій та уніфікації порядку слів і синтаксису є незамінною.

Навпаки, машинне навчання природної мови вимагає менше навчальних даних, не потребує ітерацій з тими ж навчальними даними і часто не потребує попередньої обробки.

Якщо ознаки для поділу обов'язків між Адміністративним відділом та Відділом загальних справ є 50-вимірними, достатньо 50 одиниць інформації, що відповідають кожному виміру.

Більше того, це не означає, що потрібні 50 окремих речень.

Одне речення, як-от «Обов'язки, пов'язані з A, B, C та D, виконує Адміністративний відділ», може охоплювати чотири виміри інформації.

Крім того, шляхом абстрагування мови інформація з кількох вимірів може бути агрегована. Речення, як-от «Обслуговування будівельних матеріалів та приміщень є відповідальністю Адміністративного відділу», агрегує широкий спектр вимірної інформації, включаючи заміну лампочок та несправності автоматичних дверей.

Можна сказати, що це абстрагування зменшує обсяг навчальних даних, використовуючи попередньо навчені знання та можливості міркування ВММ.

І, по суті, навчання природної мови не вимагає ітеративного навчання. Щойно вищезгадане речення додається до бази знань, навчання завершено.

Крім того, попередня обробка знань не потрібна. Навіть якщо пояснення Адміністративного відділу або Відділу загальних справ змішані в різних текстах, їх все одно можна використовувати як знання.

Або, як у попередньому прикладі, необроблені дані, такі як записи запитів та призначень, можуть бути негайно використані як навчальні дані без попередньої обробки.

Таким чином, машинне навчання природної мови може навчатися набагато ефективніше, ніж числове машинне навчання.

Висновок

Порівняно зі швидкісними числовими обчислювальними можливостями комп'ютерів, здатність великих мовних моделей до обробки природної мови є досить повільною.

Однак машинне навчання природної мови дозволяє ефективно навчатися, значно перевершуючи розрив між швидкісними числовими обчисленнями та повільною обробкою природної мови.

Крім того, великі мовні моделі, які досягли дивовижного прогресу завдяки числовому навчанню, схоже, наближаються до меж покращення продуктивності через просте масштабування, згідно із законами масштабування.

За такого сценарію цілком ймовірно, що основна увага буде перенесена на розширення можливостей за допомогою машинного навчання природної мови.