Перейти до вмісту
Ця стаття була перекладена з японської мови за допомогою ШІ
Читати японською
Ця стаття знаходиться в суспільному надбанні (CC0). Ви можете вільно використовувати її. CC0 1.0 Universal

Машинне навчання на природній мові

Традиційне машинне навчання функціонує в парадигмі, де комп'ютери, майстерні в числових обчисленнях, навчаються на числових даних і набувають числових параметрів.

З іншого боку, ми здатні навчатися не тільки за допомогою числових механізмів, але й за допомогою мови. Ми організовуємо та записуємо досвід у вигляді слів, а потім пригадуємо або читаємо ці слова, щоб їх використовувати.

Великі мовні моделі можуть аналогічно описувати знання за допомогою слів і використовувати слова, читаючи їх.

Використовуючи великі мовні моделі, які є процесорами природної мови, стає можливим машинне навчання на основі природної мови, а не лише машинне навчання на основі чисел.

Отже, поява великих мовних моделей відкрила нову галузь: машинне навчання на природній мові.

Попереднє навчання великих мовних моделей є традиційним числовим машинним навчанням. Описане тут машинне навчання на природній мові стосується нової форми машинного навчання, яка використовує попередньо навчені великі мовні моделі.

Базова модель машинного навчання природною мовою

Машинне навчання природною мовою має аспекти, які схожі та повністю відрізняються від традиційного числового машинного навчання.

По-перше, щоб уявити собі машинне навчання природною мовою, ми пояснимо ті частини, які схожі на традиційне числове машинне навчання, як базову модель.

Надалі ми будемо посилатися на попередньо навчену велику мовну модель як LLM. Зверніть увагу, що параметри LLM не змінюються протягом цього процесу навчання.

Базова модель — це кероване навчання, спрямоване на проблему класифікації.

Кілька пар вхідних речень та їх класифікацій готуються як правильні відповіді для навчальних даних.

Наприклад, припустимо, що компанія має Відділ загальних справ та Адміністративний відділ.

Ці два відділи мають розподіл обов'язків. Для вхідних речень, таких як «Перегоріла лампочка в офісі», «Я забув свою картку доступу» або «Хочу забронювати головний зал у штаб-квартирі», класифікація вказує, чи відповідає за це Відділ загальних справ, чи Адміністративний відділ.

З цих навчальних даних витягуються лише вхідні речення та подаються до LLM.

Тут, як системний запит, ми навмисно обмежуємо відповідь, заявляючи: «Будь ласка, вкажіть, який відділ, Відділ загальних справ чи Адміністративний відділ, відповідає за цей запит. Не включайте в свою відповідь жодних символів, крім „Відділ загальних справ“ або „Адміністративний відділ“».

Спочатку LLM генеруватиме відповіді без будь-яких знань про цю компанію. Звісно, деякі відповіді будуть неправильними, тоді як інші можуть бути правильними випадково.

Для кожної відповіді система-вчитель визначає, чи є вона правильною, чи неправильною. Потім комбінація вхідного речення, відповіді LLM та результату оцінки зберігається в базі знань.

Цей процес повторюється для приблизно половини навчальних даних.

Для решти половини навчальних даних виконується той самий процес, але цього разу вся інформація, записана в базі знань, додається до системного запиту для LLM.

На цьому етапі база знань містить інформацію про розподіл обов'язків між Відділом загальних справ та Адміністративним відділом цієї компанії, тому ймовірність отримання правильних відповідей має бути вищою, ніж з першою половиною даних.

Таким чином, система, що поєднує LLM та базу знань, може вивчати розподіл обов'язків між Відділом загальних справ та Адміністративним відділом цієї компанії.

Сам механізм навчання схожий на традиційне числове машинне навчання. Різниця полягає в тому, що результати навчання відображаються в базі знань, а не в параметрах нейронної мережі всередині LLM. І в базі знань записується природна мова, а не числа.

Це базова модель машинного навчання природною мовою.

Реальність базової моделі

Як швидко усвідомить кожен, хто використовує LLM, цій базовій моделі бракує реалізму.

Це тому, що замість того, щоб витрачати зусилля на те, щоб система-вчитель визначала правильні та неправильні відповіді, можна було б просто ввести самі навчальні дані в системний промпт із самого початку.

Однак, застосувавши базову модель і дещо змінивши сценарій, вона набуває реалізму.

Наприклад, припустимо, що відділи загальних справ та адміністративних справ спільно створюють довідкову службу, і люди індивідуально розподіляють вхідні запити до відповідного відділу.

Можна створити просту систему для додавання цих запитів та результатів їх маршрутизації до бази знань.

Потім, використовуючи цю базу знань, LLM може перейняти від людей маршрутизацію нових запитів до відділів.

У цьому випадку, якщо LLM неправильно спрямує запит, призначений для адміністративного відділу, до відділу загальних справ, відповідальна особа у відділі загальних справ переспрямує запит назад до адміністративного відділу. Ця інформація про переспрямування також записується в базу знань.

Цей простий механізм запису журналів маршрутизації, поєднаний із системою LLM та базою знань, став би реалістичною керованою моделлю для машинного навчання природною мовою.

Ключовим моментом тут, знову ж таки, є те, що параметри нейронної мережі всередині LLM взагалі не змінюються. А результати зворотного зв'язку навчання – це не числові значення, а скоріше набори речень природною мовою.

Більше того, ця система є беззаперечно системою машинного навчання, а не людського навчання.

Таким чином, це нова форма машинного навчання: машинне навчання за допомогою природної мови.

Сильні сторони машинного навчання природною мовою

На відміну від числового машинного навчання, навчання природною мовою пропонує багато переваг.

Одним словом, його визначальною характеристикою є надзвичайна ефективність навчання.

Числове машинне навчання зазвичай вимагає великої кількості навчальних даних та ітеративного навчання. Також необхідна попередня обробка навчальних даних.

Велика кількість навчальних даних потрібна тому, що ознаки, які потрібно вивчити, не містяться в одному фрагменті даних, а розподілені по великому обсягу даних.

З цієї причини потрібні навчальні дані порядку квадрата розмірності справді бажаних ознак.

Ітеративне навчання необхідне тому, що зміна параметрів протягом одного циклу зворотного зв'язку повинна бути невеликою, щоб забезпечити належне навчання параметрів нейронної мережі без потрапляння в локальні оптимуми.

Попередня обробка навчальних даних, така як нормалізація та виділення меж, необхідна для виділення справді бажаних ознак. Ця попередня обробка також вимагає значних зусиль.

Наприклад, якщо розподіл обов'язків між адміністративним відділом та відділом загальних справ мав би вивчатися за допомогою традиційної нейронної мережі, і його ознаки були 50-вимірними, знадобилося б щонайменше 1000 або більше точок навчальних даних. Крім того, ці 1000+ точок даних, можливо, доведеться повторювати приблизно 100 разів, щоб досягти належної точності навчання.

Крім того, якщо ці 1000 точок даних містять зайві слова, варіації в написанні слів або різноманітність порядків слів та синтаксису, ефективність навчання зменшиться, або будуть вивчені нерелевантні ознаки.

Тому попередня обробка для видалення зайвих слів, стандартизації лексики для усунення варіацій та уніфікації порядку слів та синтаксису є незамінною.

З іншого боку, машинне навчання природною мовою вимагає менше навчальних даних, не вимагає ітерацій з тими ж навчальними даними, і в багатьох випадках не вимагає попередньої обробки.

Якщо ознаки розподілу обов'язків між адміністративним відділом та відділом загальних справ є 50-вимірними, часто достатньо 50 одиниць інформації, що відповідають кожному виміру.

Більше того, це не означає, що потрібні 50 окремих речень.

Одне речення, наприклад "Обов'язки, пов'язані з A, B, C і D, виконує адміністративний відділ", може містити інформацію для чотирьох вимірів.

Крім того, шляхом абстрагування мови інформація з кількох вимірів може бути агрегована. Одне речення, наприклад "Адміністративний відділ відповідає за витратні матеріали для будівлі та технічне обслуговування обладнання", агрегує інформацію з широкого діапазону вимірів, включаючи заміну лампочок та несправності автоматичних дверей.

Ця абстракція використовує попередньо навчені знання та здібності LLM до міркування, тим самим зменшуючи необхідну кількість навчальних даних.

І, по суті, навчання природною мовою не вимагає ітеративного навчання. Після того, як вищезгадане речення додано до бази знань, навчання завершено.

Крім того, попередня обробка знань не потрібна. Навіть якщо описи адміністративних відділів або відділів загальних справ змішані з різними іншими реченнями, вони все одно можуть бути використані як знання.

Альтернативно, необроблені дані, такі як журнали запитів та призначень, як у попередньому прикладі, можуть бути негайно використані як навчальні дані без попередньої обробки.

Таким чином, машинне навчання природною мовою може навчатися значно ефективніше, ніж числове машинне навчання.

Висновок

Порівняно з високошвидкісними числовими обчислювальними можливостями комп’ютерів, можливості обробки природної мови великих мовних моделей є досить повільними.

Однак машинне навчання природною мовою дозволяє ефективніше навчатися порівняно з числовим машинним навчанням.

Ця ефективність значно переважує розрив між високошвидкісними числовими обчислювальними можливостями та повільними можливостями обробки природної мови.

Крім того, великі мовні моделі, які пройшли дивовижну еволюцію за допомогою числового навчання, здається, наближаються до межі покращення можливостей через просте масштабування, згідно з законами масштабування.

У такому випадку, цілком імовірно, що основна увага переключиться на покращення можливостей за допомогою машинного навчання природною мовою.