Перейти до вмісту
Ця стаття була перекладена з японської мови за допомогою ШІ
Читати японською
Ця стаття знаходиться в суспільному надбанні (CC0). Ви можете вільно використовувати її. CC0 1.0 Universal

Система штучного навчального інтелекту: Концепція ALIS

Тут я хотів би систематизувати Систему штучного навчального інтелекту (ALIS), детально виклавши її концепцію, принципи, базовий дизайн та методологію розробки.

Концепція

Сучасний генеративний ШІ, насамперед великі мовні моделі, навчається на основі керованого навчання, що базується на нейронних мережах.

Як процес навчання, ми визначаємо це навчання нейронних мереж як вроджене навчання.

ALIS інтегрує процес набутого навчання, відокремлений від вродженого навчання, щоб забезпечити виведення, що поєднує обидва процеси навчання.

При цьому набутому навчанні набуті знання накопичуються зовнішньо від нейронної мережі та використовуються під час виведення.

Таким чином, технічна суть ALIS полягає у вилученні, зберіганні, а також виборі та використанні багаторазових знань під час виведення.

Крім того, ALIS — це не просто єдина елементарна технологія, а системна технологія, яка поєднує вроджене та набуте навчання.

Елементи системи навчального інтелекту

ALIS функціонує за принципом, що як існуюче вроджене навчання, так і набуте навчання, що розглядатиметься в майбутньому, дотримуються однієї й тієї ж концепції навчання та виведення.

Щоб пояснити принципи навчання в ALIS, ми визначаємо п'ять елементів системи навчального інтелекту.

Першим є інтелектуальний процесор. Це стосується системи обробки, яка виконує виведення, використовуючи знання, та видобуває знання для навчання.

Великі мовні моделі (LLM) та частини людського мозку є яскравими прикладами інтелектуальних процесорів.

Другим є сховище знань. Це стосується місця зберігання, де вилучені знання можна зберігати та отримувати за потреби.

У LLM сховище знань складається з параметрів нейронної мережі. У людей воно відповідає довготривалій пам'яті в мозку.

Третім є світ. Це стосується зовнішнього середовища, як його сприймає система навчального інтелекту, наприклад, люди або ALIS.

Для людей світ — це сама реальність. У випадку LLM, механізм, який отримує вихід від LLM і надає йому зворотний зв'язок, можна вважати еквівалентним світові.

Четвертим є пам'ять стану. Це стосується внутрішнього тимчасового компонента, схожого на пам'ять, який використовується системою навчального інтелекту під час виведення.

У LLM це простір пам'яті, що використовується під час виведення, відомий як приховані стани. У людей він відповідає короткочасній пам'яті.

П'ятим є фреймворк. Це, так би мовити, структура мислення. У термінології систем навчального інтелекту це стосується критеріїв вибору необхідних знань під час виведення та логічної структури простору станів для організації пам'яті станів.

У LLM це семантична структура прихованих станів, і її вміст, як правило, є неоднозначним і незрозумілим для людини. Крім того, вибір знань вбудований у механізм уваги, який вибирає, на які існуючі токени посилатися для кожного оброблюваного токена.

У людей, як зазначено вище, це структура мислення. Коли мислимо за допомогою певного фреймворку, певний набір ноу-хау викликається з довготривалої пам'яті та завантажується в короткочасну пам'ять. Потім поточна сприйнята інформація організовується відповідно до фреймворку мислення для розуміння ситуації.

Принципи системи навчального інтелекту

Система навчального інтелекту працює наступним чином:

Інтелектуальний процесор впливає на світ. Світ, у відповідь на цю дію, повертає результати.

Інтелектуальний процесор витягує багаторазові знання з цих результатів і зберігає їх у сховищі знань.

Діючи на світ ітеративно, інтелектуальний процесор вибирає знання зі сховища знань і використовує їх для зміни своїх дій.

Це базовий механізм.

Однак, принципово, методи вилучення, зберігання, вибору та використання знань визначають, чи може система здійснювати осмислене навчання.

Люди володіють механізмами, які ефективно обробляють це вилучення, зберігання, вибір та використання знань, що дозволяє їм навчатися.

Нейронні мережі, включаючи LLM, мають вилучення, що обробляється зовнішніми вчителями, але вони володіють механізмами зберігання, вибору та використання. Це дозволяє їм навчатися, якщо їм надано вчителя.

Крім того, система навчального інтелекту також може вивчати вилучення, зберігання та вибір фреймворків, а також методи їх використання в пам'яті стану як знання, тим самим уможливлюючи більш складне навчання.

Типи знань

Ґрунтуючись на цих принципах, при розробці набутого навчання необхідно уточнити, яку форму прийматиме набуте знання.

Можна розглянути метод, при якому набуте знання також вивчається окремо як параметри нейронної мережі.

Однак набуте знання не обов'язково повинно обмежуватися лише параметрами нейронної мережі. Практичним кандидатом є знання, текстово виражені природною мовою.

Знання, текстово виражені природною мовою, можна вилучати та використовувати, залучаючи можливості обробки природної мови LLM. Крім того, оскільки їх можна обробляти як дані в стандартних ІТ-системах, зберігання та вибір також легкі.

Більш того, знання, текстово виражені природною мовою, легко перевіряти, розуміти, а в деяких випадках навіть редагувати їхній зміст людям та іншим LLM.

Їх також можна ділитися, об'єднувати або розділяти з іншими системами навчального інтелекту.

З цих причин набуті знання в концепції ALIS спочатку будуть розроблені з орієнтацією на знання, текстово виражені природною мовою.

Набута пам'ять станів та фреймворки

Ми пояснили переваги вибору тексту природною мовою як формату для набутих знань.

Аналогічно, текст природною мовою також можна використовувати для пам'яті станів та фреймворків для виведення.

Фреймворки, як концептуальні структури, можуть зберігатися та використовуватися у сховищі знань як знання, текстово виражені природною мовою.

Навіть при ініціалізації або оновленні станів на основі структури, визначеної фреймворком, можна використовувати текстовий формат пам'яті станів.

Розробляючи не лише набуті знання, а й фреймворки та пам'ять станів у текстовому форматі, ALIS може використовувати можливості обробки природної мови LLM для набутого навчання та виведення загалом.

Формальні знання

Набуті знання, фреймворки та пам'ять станів можуть бути виражені не лише текстом природною мовою, а й більш суворими формальними мовами або формальними моделями.

Хоча я написав «вибрати», мета ALIS полягає у включенні кількох окремих механізмів набутого навчання знань, щоб уможливити гібридне використання вродженого та набутого навчання.

Знання, представлені формальними мовами або формальними моделями, можна зробити більш точними та однозначними.

Крім того, якщо фреймворк виражений за допомогою формальної мови або моделі, а початковий стан розгорнутий у пам'яті станів, тоді симуляція або логічний розвиток можуть бути виконані за допомогою суворої моделі інтелектуальним процесором, здатним обробляти формальні моделі, а не LLM.

Яскравим прикладом таких формальних мов або формальних моделей є мови програмування.

Коли система вивчає світ, якщо вона може виразити знайдені в ньому закони та концепції як програму у фреймворку, тоді вона може симулювати їх на комп'ютері.

Колонка 1: Типи знань

При систематизації знань у системі навчального інтелекту стає зрозуміло, що їх можна узагальнено розділити на три типи систем знань і два типи станів.

Три системи знань: знання параметрів мережі, що обробляються нейронними мережами; природні знання, виражені природною мовою; та формальні знання, виражені формальними мовами.

Два типи станів: безстатеві та статеві.

Безстатеві знання параметрів мережі — це інтуїтивні знання, подібні до тих, що зустрічаються в ШІ глибокого навчання. Ознаки котів і собак, які неможливо чітко продумати або ідентифікувати вербально, можуть бути вивчені як безстатеві знання параметрів мережі.

Статеві знання параметрів мережі — це знання, які виникають у результаті розпливчастих, ітераційних процесів, як, наприклад, у генеративному ШІ.

Безстатеві природні знання — це знання, подібні до значень, пов'язаних з окремими словами.

Статеві природні знання — це знання, що включають контекст у реченнях.

Деякі природні знання вроджено включені до статевих знань параметрів мережі, але є також знання, які можна отримати з тексту природною мовою.

Безстатеві формальні знання — це знання, які можна виразити математичними формулами без ітерацій. Статеві формальні знання — це знання, які можна виразити як програму.

Також можна використовувати власну короткочасну пам'ять як пам'ять станів для природних та формальних знань.

Однак, оскільки це короткочасна пам'ять, існує проблема, що важко стабільно підтримувати стан. Крім того, вона не здатна утримувати формалізовані, однозначні стани.

З іншого боку, папір, комп'ютери та смартфони можуть використовуватися як пам'ять станів для запису або редагування тексту природною мовою, формальних мов або формальних моделей.

Зазвичай дані на папері або комп'ютерах часто сприймаються як сховище знань для їх запам'ятовування, але їх також можна використовувати як пам'ять станів для систематизації думок.

Таким чином, очевидно, що люди здійснюють інтелектуальну діяльність, повною мірою використовуючи ці три системи знань та два типи станів.

ALIS також має потенціал для значного розширення своїх можливостей, дозволяючи та посилюючи інтелектуальну діяльність, яка використовує ті самі три системи знань та два типи станів.

Зокрема, ALIS має перевагу у можливості використовувати величезні сховища знань та пам'ять станів. Крім того, вона може легко виконувати інтелектуальні завдання, готуючи багато кожного з них та перемикаючись або комбінуючи їх.

Колонка 2: Інтелектуальна оркестровка

Хоча можливість накопичувати величезну кількість знань у сховищі знань є перевагою, обсяг знань не завжди прямо пропорційно впливає на ефективність інтелектуальної діяльності через обмеження кількості токенів, які може обробити генеративний ШІ за один раз, та шум, що створюється нерелевантними знаннями.

Навпаки, шляхом належного розділення сховища знань та його перетворення на спеціалізовані сховища знань високої щільності, кожне з яких містить знання, необхідні для конкретного інтелектуального завдання, проблеми обмеження токенів та шуму можуть бути пом'якшені.

Взамін кожне спеціалізоване сховище знань стає придатним лише для виконання призначеного йому інтелектуального завдання.

Багато інтелектуальних видів діяльності є складними композиціями з різних інтелектуальних завдань. Тому, розділивши знання на спеціалізовані сховища знань відповідно до типу інтелектуального завдання та поділивши інтелектуальну діяльність на окремі завдання, ALIS може виконувати всю інтелектуальну діяльність, належним чином перемикаючись між цими спеціалізованими сховищами знань.

Це аналогічно оркестру, що складається з професійних музикантів, які грають на різних інструментах, і диригента, який керує ансамблем.

Завдяки цій системній технології, інтелектуальній оркестровці, ALIS зможе організовувати свою інтелектуальну діяльність.

Базовий дизайн та метод розробки ALIS

Далі ми систематизуємо розробку ALIS.

Як вже обговорювалося в принципах та колонках, ALIS за своєю суттю розроблена для легкого розширення функцій та ресурсів. Це пояснюється тим, що сутність ALIS полягає не в конкретних функціях, а в процесах вилучення, зберігання, вибору та використання знань.

Наприклад, можна передбачити кілька типів механізмів вилучення знань, і дизайн системи дозволяє вільно вибирати їх або використовувати одночасно.

Крім того, сам ALIS може здійснювати цей вибір.

Аналогічно, зберігання, вибір та використання також можуть бути вільно обрані або паралелізовані.

Таким чином, ALIS може бути розроблений інкрементально та гнучко, без необхідності проектувати всю функціональність за каскадною моделлю.

Початок ALIS

Тепер розробимо дуже просту ALIS.

Базовий користувацький інтерфейс буде знайомим чат-ШІ. Спочатку вхідні дані користувача передаються безпосередньо в LLM. Відповідь LLM відображається на інтерфейсі, і система чекає наступного вводу користувача.

Після отримання наступного вводу LLM надається не лише новий ввід, а й вся історія чату між користувачем і LLM.

За інтерфейсом цього чат-ШІ готується механізм для вилучення багаторазових знань з історії чату.

Цей механізм можна додати до системи чат-ШІ як процес, який запускається після завершення розмови або через регулярні проміжки часу. Звичайно, для вилучення знань використовується LLM.

Цьому LLM надається концепція та принципи ALIS, а також ноу-хау з вилучення знань, як системний підказка. Якщо знання не вилучаються, як передбачалося, системний підказку слід покращити шляхом спроб і помилок.

Знання, вилучені з історії чату, зберігаються безпосередньо в озері знань. Озеро знань – це просто механізм для зберігання знань у плоскому стані до їх структурування.

Далі готується механізм структурування, щоб спростити вибір знань з озера знань.

Це передбачає надання векторного сховища вбудованих даних для семантичного пошуку, як це використовується в типовому RAG, та індексів ключових слів.

Інші можливості включають генерацію більш складних графів знань або виконання класифікації категорій.

Ця колекція структурованої інформації для озера знань буде називатися базою знань. Ця вся база знань та озеро знань становитимуть сховище знань.

Далі сховище знань інтегрується в обробку інтерфейсу чату.

Це в основному те саме, що й загальний механізм RAG. Для вводу користувача відповідні знання вибираються зі сховища знань і передаються LLM разом з вводом користувача.

Це дозволяє LLM автоматично використовувати знання при обробці вводу користувача.

Таким чином, знання збільшуються з кожною розмовою з користувачем, що дозволяє створити просту ALIS, яка використовує накопичені знання з минулих розмов.

Простий сценарій

Наприклад, уявіть сценарій, де користувач розробляє веб-додаток, використовуючи цю просту ALIS.

Користувач повідомить, що запропонований LLM код призвів до помилки. Потім користувач і LLM співпрацюватимуть для усунення проблеми. Припустімо, вони виявлять, що специфікація зовнішнього API, про яку знав LLM, була застарілою, і адаптація до останньої специфікації API вирішила проблему.

У цьому випадку знання про те, що специфікація API LLM була старою, і яка є остання специфікація API, можуть бути накопичені в сховищі знань з цієї гілки чату.

Тоді, при створенні програми, яка використовуватиме той самий API наступного разу, ALIS зможе використовувати ці знання для генерації програми, заснованої на останній специфікації API, з самого початку.

Вдосконалення початкової ALIS

Однак для цього необхідно, щоб ці знання були вибрані у відповідь на ввід користувача. Можливо, ці знання не будуть безпосередньо пов'язані з вводом користувача, оскільки назва проблемного API навряд чи з'явиться в початковому вводі користувача.

У такому випадку назва API вперше з'явиться лише у відповіді LLM.

Тому ми трохи розширимо просту ALIS, додавши механізм для коментарів попередньої перевірки та коментарів після перевірки.

Коментарі попередньої перевірки подібні до нещодавнього «режиму мислення» в LLM. Ми готуємо пам'ять, яка може зберігати текст як пам'ять станів, і доручаємо LLM за допомогою системної підказки виконувати коментарі попередньої перевірки після отримання вводу користувача.

Результат коментаря попередньої перевірки LLM потім поміщається в пам'ять станів, і на основі цього результату знання вибираються зі сховища знань.

Потім історія чату, результат коментаря попередньої перевірки, знання, що відповідають вводу користувача, та знання, що відповідають результату коментаря попередньої перевірки, передаються в LLM для отримання його виводу.

Крім того, для результату, поверненого LLM, знання шукаються у сховищі знань. Включаючи будь-які знайдені там знання, LLM потім просять виконати післяперевірку.

Якщо виявлені будь-які проблеми, вони передаються назад до чат-LLM разом із проблемними моментами та причинами зауважень (коментарів/зворотного зв'язку).

Надаючи можливості для вибору знань під час коментарів попередньої перевірки та коментарів після перевірки, ми можемо збільшити шанси на використання накопичених знань.

Перспективи

Процес створення початкової ALIS та додавання покращень для усунення її слабких сторін є саме гнучкою розробкою, що демонструє можливість поступового вдосконалення ALIS.

Крім того, як показано на прикладі, початкова ALIS найбільш придатна для використання в розробці програмного забезпечення. Це пов'язано з тим, що це галузь з високим попитом, де знання можна чітко накопичувати.

Це домен, де результати однозначні, проте він вимагає та значно виграє від спроб і помилок, ітераційного накопичення знань.

Додатково, оскільки сама розробка ALIS є розробкою програмного забезпечення, той факт, що розробники ALIS також можуть бути користувачами ALIS, є привабливим аспектом.

Більш того, разом із системою ALIS, озеро знань може бути відкрито доступне на платформах, таких як GitHub.

Це дозволить багатьом людям зробити свій внесок у вдосконалення системи ALIS та накопичення знань, при цьому всі зможуть користуватися перевагами та ще ефективніше прискорювати розробку ALIS.

Звичайно, обмін знаннями не обмежується розробниками ALIS; його можна збирати з усіх розробників програмного забезпечення, які використовують ALIS.

Природа знань як природної мови дає дві додаткові переваги.

Перша перевага полягає в тому, що знання все ще можуть використовуватися, навіть коли моделі LLM змінюються або оновлюються.

Друга перевага полягає в тому, що величезне накопичене озеро знань можна використовувати як набір даних для попереднього навчання LLM. Існує два способи використання цього: як тонке налаштування, або для самого попереднього навчання LLM.

У будь-якому випадку, якщо LLM, який природно засвоїв знання, накопичені в озері знань, може бути використаний, розробка програмного забезпечення стане ще ефективнішою.

Крім того, розробка програмного забезпечення включає різні процеси, такі як аналіз вимог, проектування, реалізація, тестування, експлуатація та обслуговування. Також існують спеціалізовані знання для кожного домену програмного забезпечення та платформи. Створивши механізм для поділу величезної кількості накопичених знань з цих перспектив, можна створити оркестр ALIS.

Таким чином, базові технології для ALIS вже є. Залишається лише зробити вирішальний крок – практично експериментувати з різними методами, такими як ноу-хау з вилучення знань, відповідний вибір знань, сегментація спеціалізованих знань та використання пам'яті станів, щоб відкрити ефективні підходи. Зі зростанням складності також збільшиться час обробки та витрати на використання LLM, що вимагатиме оптимізації.

Ці процеси спроб і помилок та оптимізації можна просувати в навчальному режимі шляхом розробки та вдосконалення фреймворків.

Спочатку розробники, як користувачі, ймовірно, інтегруватимуть фреймворки в ALIS шляхом спроб і помилок. Однак навіть тоді LLM сам може бути залучений до генерації ідей фреймворків.

Потім, шляхом інтеграції фреймворку для вдосконалення та виявлення фреймворків в ALIS, ґрунтуючись на результатах, отриманих зі світу, та витягнутих знаннях, ALIS сам здійснюватиме спроби та помилки та оптимізацію в навчальному режимі.

ALIS у реальному світі

Після того, як ALIS буде доопрацьована до цього етапу, вона повинна бути здатною набувати знання в широкому спектрі доменів, не обмежуючись лише світом розробки програмного забезпечення.

Подібно до розробки програмного забезпечення, очікується, що ALIS розширить сферу свого застосування на різні інтелектуальні види діяльності, які люди виконують за допомогою комп'ютерів.

Навіть у таких суто інтелектуальних видах діяльності ALIS матиме якість, подібну до втіленого ШІ по відношенню до свого цільового світу.

Це тому, що вона розпізнає межу між собою та світом, діє на світ через цю межу та може сприймати інформацію, отриману від світу.

Коли ця межа зі світом фізично видима та локалізована в одному місці, ми зазвичай називаємо її тілом.

Однак, навіть якщо межа невидима та просторово розподілена, структура сприйняття та дії через межу залишається такою ж, як і у випадку наявності фізичного тіла.

У цьому сенсі ALIS, яка виконує інтелектуальну діяльність, може розглядатися як така, що віртуально володіє характеристиками втіленого ШІ.

І якщо ALIS буде доопрацьована до етапу, коли вона зможе належним чином навчатися навіть у нових, невідомих світах, існує ймовірність того, що ALIS може бути включена як частина справжнього втіленого ШІ, що володіє фактичним фізичним тілом.

Таким чином, ALIS згодом буде застосована до реального світу та почне навчатися у нього.