Перейти до вмісту
Ця стаття була перекладена з японської мови за допомогою ШІ
Читати японською
Ця стаття знаходиться в суспільному надбанні (CC0). Ви можете вільно використовувати її. CC0 1.0 Universal

Система штучного інтелекту навчання: Концепція ALIS

Тут я маю на меті систематизувати Систему Штучного Інтелекту Навчання (ALIS), охопивши її концепції та принципи, аж до базового дизайну та методів розробки.

Концепція

Сучасний генеративний ШІ, насамперед великі мовні моделі, навчається на основі керованого навчання з використанням нейронних мереж.

Цей процес навчання нейронної мережі ми позиціонуємо як вроджене навчання.

ALIS — це система, яка уможливлює комплексне виведення шляхом інтеграції як вроджених, так і набутих процесів навчання, включаючи процес набутого навчання, відокремлений від вродженого.

У цьому набутому навчанні засвоєні знання зберігаються поза нейронною мережею та використовуються під час виведення.

Отже, технічна основа ALIS полягає у видобуванні, зберіганні багаторазових знань, а також у виборі та використанні знань під час виведення.

Крім того, ALIS — це не просто окрема елементарна технологія, а системна технологія, яка поєднує вроджене та набуте навчання.

Елементи системи навчального інтелекту

ALIS розглядає як існуюче вроджене навчання, так і майбутнє набуте навчання як такі, що функціонують за однаковими принципами в рамках навчання та висновків.

Для пояснення принципів навчання в ALIS ми визначаємо п’ять елементів системи навчального інтелекту:

Першим є Інтелектуальний процесор. Це стосується системи обробки, яка виконує висновки, використовуючи знання, та витягує знання для навчання.

Типовими прикладами інтелектуальних процесорів є великі мовні моделі (LLM) та частини людського мозку.

Другим є Сховище знань. Це стосується місця зберігання, де витягнуті знання зберігаються та можуть бути отримані за потреби.

У LLM сховище знань — це параметри нейронної мережі. У людей воно відповідає довгостроковій пам’яті в мозку.

Третім є Світ. Це стосується зовнішнього середовища, як його сприймають системи навчального інтелекту, такі як люди або ALIS.

Для людей світ — це сама реальність. У випадку LLM, механізм, який отримує вивід від LLM і надає йому зворотний зв’язок, вважається еквівалентом світу.

Четвертим є Пам’ять стану. Це стосується внутрішньої тимчасової пам’яті, схожої на чернетку, яку система навчального інтелекту використовує під час висновків.

У LLM це простір пам’яті, який використовується під час висновків, відомий як приховані стани. У людей він відповідає короткостроковій пам’яті.

П’ятим є Фреймворк. Це так звана структура мислення. У термінології системи навчального інтелекту це стосується критеріїв для вибору необхідних знань під час висновків та логічної структури простору станів для організації пам’яті стану.

У LLM це семантична структура прихованих станів, і, як правило, її зміст є нечітким і незрозумілим для людей. Крім того, вибір знань інтегрований у механізм уваги, який вибирає, на які існуючі токени посилатися для кожного оброблюваного токена.

Для людей, як згадувалося вище, це структура мислення. Коли мислимо за допомогою певної структури мислення, певні набори ноу-хау згадуються з довгострокової пам’яті та завантажуються в короткострокову пам’ять. Потім поточна сприйнята інформація організовується відповідно до структури мислення, щоб зрозуміти ситуацію.

Принципи системи навчального інтелекту

Система навчального інтелекту функціонує наступним чином:

Інтелектуальний процесор впливає на світ. Світ відповідає результатами, що ґрунтуються на цій дії.

Інтелектуальний процесор витягує з цих результатів знання, які можна повторно використовувати, і зберігає їх у сховищі знань.

Коли інтелектуальний процесор багаторазово впливає на світ, він вибирає знання зі сховища знань і використовує їх для зміни свого способу дії.

Це базовий механізм.

Однак, фундаментально, методи видобутку, зберігання, відбору та використання знань визначають, чи може система досягти значущого навчання.

Люди володіють механізмами, які дозволяють ефективно видобувати, зберігати, відбирати та використовувати знання, що дає їм змогу навчатися.

Нейронні мережі, включаючи LLM, мають механізми для зберігання, відбору та використання, хоча частина видобутку обробляється зовнішнім вчителем. Це дозволяє їм навчатися, якщо вчитель надає вхідні дані.

Крім того, система навчального інтелекту може досягти більш складного навчання, також навчаючись видобутку, зберіганню та відбору фреймворків, а також їх використанню в пам'яті станів, як знання.

Типи знань

Ґрунтуючись на цьому принципі, при розробці набутого навчання необхідно чітко визначити, яку форму інформації набуті знання прийматимуть.

Можна припустити, що набуті знання можуть бути вивчені окремо як параметри нейронної мережі.

Однак набуті знання не обов’язково обмежувати лише параметрами нейронної мережі. Реалістичним кандидатом є знання, текстово оформлені природною мовою.

Якщо знання текстово оформлені природною мовою, їх можна витягувати та використовувати, залучаючи можливості обробки природної мови великих мовних моделей (LLM). Крім того, їх можна обробляти як дані у звичайній ІТ-системі, що спрощує зберігання та вибір.

Більше того, знання, текстово оформлені природною мовою, легко перевіряти, розуміти, а в деяких випадках і редагувати людям та іншим LLM.

Їх також можна ділитися з іншими системами навчального інтелекту, а також об'єднувати або розділяти.

З цих причин набуті знання в концепції ALIS спочатку будуть розроблені з орієнтацією на знання, текстово оформлені природною мовою.

Набута пам'ять стану та фреймворк

Я пояснив переваги вибору текстових знань природною мовою як набутих знань.

Подібним чином, текст природною мовою також може використовуватися для пам'яті стану та фреймворку для висновків.

Фреймворк, який є концептуальною структурою, також може зберігатися та використовуватися в сховищі знань як текстові знання природною мовою.

При ініціалізації або оновленні станів на основі структури, визначеної цим фреймворком, можна використовувати текстову пам'ять стану.

Розробивши ALIS для використання текстового формату не лише для набутих знань, а й для фреймворків та пам'яті стану, ALIS може використовувати можливості обробки природної мови LLM як для набутого навчання, так і для загального виведення.

Формальні знання

Набуті знання, фреймворки та пам'ять станів можуть бути представлені не лише текстом природною мовою, а й більш строгими формальними мовами чи формальними моделями.

Хоча я написав "вибрати", мета ALIS полягає в тому, щоб включити кілька механізмів навчання набутих знань, щоб забезпечити гібридне використання вродженого та набутого навчання.

Знання, представлені формальними мовами або формальними моделями, можуть бути більш строгими та вільними від двозначності.

Крім того, якщо фреймворк виражений за допомогою формальної мови або формальної моделі, а початковий стан розширюється в пам'яті станів, тоді формальна модель може бути оброблена інтелектуальним процесором (не LLM) для виконання строгих симуляцій та логічних міркувань.

Яскравим прикладом таких формальних мов та формальних моделей є мови програмування.

Коли система дізнається про світ, якщо вона може виражати основні закони та концепції як програми в рамках фреймворку, тоді їх можна симулювати комп'ютером.

Колонка 1: Типи знань

Коли ми організуємо знання в системі навчального інтелекту, стає зрозумілим, що їх можна широко класифікувати на три системи та два типи.

Три системи це: знання параметрів мережі, що обробляються нейронними мережами; природні знання природною мовою; та формальні знання формальними мовами.

Два типи це: безстатевий (stateless) та зі станом (stateful).

Безстатеві знання параметрів мережі — це інтуїтивні знання, подібні до тих, що зустрічаються в ШІ глибокого навчання. Характеристики котів і собак, які неможливо обдумати або ідентифікувати вербально, можуть бути вивчені як безстатеві знання параметрів мережі.

Знання параметрів мережі зі станом — це нечіткі, ітеративні знання, отримані в процесі, подібні до тих, що зустрічаються в генеративному ШІ.

Безстатеві природні знання — це знання, подібні до значення, пов’язаного зі словом.

Природні знання зі станом — це знання, що включають контекст, знайдений у реченні.

Деякі природні знання за своєю суттю включені до знань параметрів мережі зі станом, але є також знання, які можна набути після народження з тексту природної мови.

Безстатеві формальні знання — це знання, які можна виразити математичними формулами, що не включають ітерацію. Формальні знання зі станом — це знання, які можна виразити програмами.

Короткочасна пам'ять власного мозку також може використовуватися як пам'ять стану для природних і формальних знань.

Однак, оскільки це короткочасна пам'ять, існує проблема, що важко стабільно підтримувати стан. Крім того, вона погано утримує знання у формалізованому, недвозначному стані.

З іншого боку, папір, комп'ютери або смартфони можуть використовуватися як пам'ять стану для запису та редагування тексту природною мовою, формальних мов або формальних моделей.

Зазвичай дані на папері або комп'ютерах часто сприймаються як щось для зберігання знань як сховище знань, але їх також можна використовувати як пам'ять стану для організації думок.

Таким чином, очевидно, що люди виконують інтелектуальну діяльність, вміло використовуючи ці три системи та два типи знань.

ALIS також має потенціал для значного покращення своїх можливостей, дозволяючи та покращуючи інтелектуальну діяльність, яка використовує ці самі три системи та два типи знань.

Зокрема, ALIS має перевагу в тому, що може використовувати величезні сховища знань та пам'ять станів. Крім того, він може легко підготувати кілька екземплярів кожного та виконувати інтелектуальні завдання, перемикаючи або комбінуючи їх.

Колонка 2: Інтелектуальна оркестрація

Хоча можливість зберігати великий обсяг знань у сховищі є сильною стороною, проста наявність великої кількості знань не завжди є перевагою для інтелектуальної діяльності через обмеження на кількість токенів, які генеративний ШІ може використовувати одночасно, та обмеження, що нерелевантні знання стають шумом.

З іншого боку, шляхом відповідного сегментування сховища знань та створення спеціалізованих сховищ знань високої щільності, які збирають знання, необхідні для конкретних інтелектуальних завдань, можна пом'якшити проблеми обмежень токенів та шуму.

Натомість, такі спеціалізовані сховища знань були б придатні лише для цих конкретних інтелектуальних завдань.

Багато інтелектуальних діяльностей є складними комбінаціями різних інтелектуальних завдань. Тому, розділяючи знання на спеціалізовані сховища знань відповідно до типу інтелектуального завдання та поділяючи інтелектуальну діяльність на інтелектуальні завдання, ALIS може виконувати всю інтелектуальну діяльність, належним чином перемикаючись між спеціалізованими сховищами знань.

Це схоже на оркестр, що складається з професійних музикантів, які грають на різних інструментах, і диригента, який керує всім.

Завдяки цій системній технології, "інтелектуальній оркестрації", ALIS зможе організовувати свою інтелектуальну діяльність.

Базовий дизайн та метод розробки ALIS

Далі я організую підхід до розробки ALIS.

Як вже зазначалося в принципах та колонках, ALIS за своєю суттю розроблена для легкого розширення своїх функцій та ресурсів. Це пояснюється тим, що суть ALIS полягає не в конкретних функціях, а в процесах вилучення, зберігання, вибору та використання знань.

Наприклад, можна підготувати кілька типів механізмів вилучення знань, а потім вибирати їх або використовувати одночасно, залежно від дизайну системи.

Крім того, ALIS можна налаштувати на самостійне виконання цього вибору.

Зберігання, вибір та використання також можуть вільно вибиратися або паралелізуватися.

Таким чином, ALIS може розроблятися інкрементально та гнучко, без необхідності розробляти всю функціональність за водоспадним методом.

Початок ALIS

Тепер розробимо дуже просту ALIS.

Основним інтерфейсом користувача буде звичний чат-ШІ. Спочатку ввід користувача буде передаватися безпосередньо LLM. Відповідь LLM потім відображатиметься в інтерфейсі, і система очікуватиме наступного вводу користувача.

Коли надійде наступний ввід, LLM отримає не лише новий ввід, а й всю історію чату між користувачем та LLM до цього моменту.

За цим інтерфейсом чат-ШІ ми підготуємо механізм для вилучення багаторазових знань з історії чату.

Його можна додати до системи чат-ШІ як процес, що виконується після завершення розмови або через регулярні проміжки часу. Звичайно, для вилучення знань буде використовуватися LLM.

Цьому LLM будуть надані концепція та принципи ALIS, а також ноу-хау щодо вилучення знань, як системні підказки. Якщо знання не вилучаються належним чином, системні підказки слід удосконалювати методом спроб і помилок.

Знання, вилучені з історії чату, зберігатимуться безпосередньо в озері знань. Озеро знань – це механізм для простого зберігання знань у плоскому, неструктурованому стані до того, як вони будуть структуровані.

Далі ми підготуємо механізм структурування, щоб спростити вибір знань з озера знань.

Це означає надання векторних сховищ для семантичного пошуку, які зазвичай використовуються в RAG, та індексів ключових слів, серед іншого.

Більш просунуті варіанти включають генерацію графа знань або виконання класифікації категорій.

Ця колекція структурованої інформації для озера знань буде називатися базою знань. Вся ця база знань та озеро знань становитимуть сховище знань.

Далі ми інтегруємо сховище знань в обробку інтерфейсу чату.

Це в основному те саме, що загальний механізм RAG. Для вводу користувача відповідні знання вибираються зі сховища знань та передаються LLM разом з вводом користувача.

Це дозволяє LLM автоматично використовувати знання при обробці вводу користувача.

Таким чином, знання накопичуватимуться з кожною розмовою з користувачем, реалізуючи просту ALIS, яка використовує знання, накопичені з минулих розмов.

Простий сценарій

Наприклад, уявіть користувача, який розробляє веб-застосунок за допомогою цього простого ALIS.

Користувач повідомляє, що код, запропонований LLM, призвів до помилки. Після того, як користувач і LLM співпрацюють для виправлення неполадок, вони виявляють, що специфікація зовнішнього API, відома LLM, була застарілою, і програма працює правильно після адаптації до останньої специфікації API.

З цього потоку чату ALIS могла б тоді накопичити знання у своєму сховищі знань: зокрема, що специфікація API, відома LLM, є застарілою, і якою є остання специфікація API.

Потім, наступного разу, коли буде створена програма, що використовує той самий API, ALIS зможе використовувати ці знання для генерації програми на основі останньої специфікації API з самого початку.

Покращення початкової ALIS

Однак, щоб це сталося, ці знання мають бути обрані у відповідь на введення користувача. Можливо, ці знання не будуть безпосередньо пов’язані з введеними користувачем даними, оскільки назва проблемного API може не з’явитися у введених користувачем даних.

У такому випадку назва API з’явиться лише під час відповіді LLM.

Тому ми трохи розширимо просту ALIS, додавши механізми попереднього аналізу та післяперевірки.

Попередній аналіз схожий на «режим мислення» в останніх LLM. Буде підготовлена пам’ять, здатна зберігати текст як пам’ять стану, а системна підказка буде інструктувати LLM виконувати попередній аналіз після отримання введених користувачем даних.

Результат попереднього аналізу LLM буде збережено в пам’яті стану. На основі цього результату попереднього аналізу знання будуть вибрані зі сховища знань.

Потім історія чату, результат попереднього аналізу, знання, що відповідають введеним користувачем даним, і знання, що відповідають результату попереднього аналізу, будуть передані LLM для отримання відповіді.

Крім того, результат, повернений LLM, також буде використано для пошуку знань зі сховища знань. Включаючи знайдені там знання, LLM буде запропоновано виконати післяперевірку.

Якщо будуть виявлені будь-які проблеми, проблемні моменти та причини їх виникнення будуть включені та передані назад до чат-LLM.

Надаючи можливості для вибору знань під час попереднього аналізу та післяперевірки, ми можемо збільшити шанси на використання накопичених знань.

Перспективи

Такий підхід до побудови початкової ALIS, а потім додавання покращень для усунення її недоліків чудово ілюструє гнучку розробку та поступове вдосконалення ALIS.

Крім того, як показано на прикладі, початкова ALIS найбільш придатна для використання в розробці програмного забезпечення. Це пояснюється тим, що це галузь з високим попитом, а також та, де знання можна легко накопичувати.

Це жанр, де все чітко чорне або біле, але це також важлива галузь, де спроби та помилки, ітеративне накопичення знань є необхідними та важливими.

Крім того, оскільки розробка ALIS сама по собі є розробкою програмного забезпечення, той факт, що розробники ALIS можуть бути користувачами ALIS, також є привабливим.

І, разом із системою ALIS, озеро знань також може бути відкрито доступним на таких платформах, як GitHub.

Це дозволить багатьом людям співпрацювати над покращеннями системи ALIS та накопиченням знань, при цьому кожен отримуватиме вигоду від результатів, що ще більше прискорить розвиток ALIS.

Звичайно, обмін знаннями не обмежується розробниками ALIS, а може бути зібраний від усіх розробників програмного забезпечення, які використовують ALIS.

Той факт, що знання знаходяться в природній мові, пропонує ще дві переваги:

Перша перевага полягає в тому, що знання можуть бути використані навіть тоді, коли модель LLM змінюється або оновлюється.

Друга перевага полягає в тому, що величезне накопичене озеро знань може бути використане як набір даних для попереднього навчання LLM. Це можна зробити двома способами: використовуючи його для тонкого налаштування або використовуючи його для самого попереднього навчання LLM.

У будь-якому випадку, якщо LLM, які вроджено засвоїли знання, накопичені в озері знань, можуть бути використані, розробка програмного забезпечення стане ще ефективнішою.

Крім того, у розробці програмного забезпечення існують різні процеси, такі як аналіз вимог, проектування, реалізація, тестування, експлуатація та обслуговування, і для кожної області програмного забезпечення та платформи існують спеціалізовані знання. Якщо буде створено механізм для сегментування величезних накопичених знань з цих точок зору, може бути сформований оркестр ALIS.

Таким чином, елементарні технології для ALIS вже існують. Ключ тепер полягає в тому, щоб практично спробувати різні методи — такі як ноу-хау з вилучення знань, відповідний вибір знань, сегментація спеціалізованих знань та способи використання пам'яті стану — щоб виявити ефективні підходи. Також, зі зростанням складності, час обробки та витрати на використання LLM зростатимуть, що вимагатиме оптимізації.

Ці процеси спроб та помилок та оптимізації можуть бути адаптивно реалізовані через розробку та вдосконалення фреймворків.

Спочатку розробники, як користувачі, ймовірно, впроваджуватимуть фреймворки в ALIS методом спроб та помилок. Однак навіть тоді сама LLM може генерувати ідеї фреймворків.

І шляхом включення фреймворків в ALIS, які покращують або виявляють фреймворки на основі результатів, отриманих зі світу та вилучених знань, ALIS сама буде виконувати спроби та помилки та оптимізацію адаптивно.

ALIS у реальному світі

Після того, як ALIS буде вдосконалена до цієї стадії, вона повинна бути здатною вивчати знання не тільки у світі розробки програмного забезпечення, але й у широкому спектрі різних доменів.

Подібно до розробки програмного забезпечення, очікується, що ALIS розширить свою сферу застосування на різні інтелектуальні дії, які люди виконують за допомогою комп’ютерів.

Навіть у таких суто інтелектуальних видах діяльності ALIS має свого роду втілену природу ШІ щодо цільового світу.

Це тому, що вона розпізнає межу між собою та світом, діє на світ через цю межу і може сприймати інформацію, отриману зі світу.

Те, що ми зазвичай називаємо «тілом», є межею зі світом, яка фізично видима та локалізована в одному місці.

Однак, навіть якщо межа є невидимою та просторово розподіленою, структура сприйняття та дії через межу така ж, як і наявність фізичного тіла.

У цьому сенсі ALIS, виконуючи інтелектуальну діяльність, може розглядатися як така, що володіє природою віртуально втіленого ШІ.

І як тільки ALIS буде вдосконалена до стадії, коли вона зможе належним чином навчатися навіть у нових, невідомих світах, існує ймовірність того, що ALIS може бути інтегрована як частина справжнього втіленого ШІ, який має фізичне тіло.

Таким чином, ALIS з часом буде застосована до реального світу і почне навчатися з нього.