Vai al Contenuto
Questo articolo è stato tradotto dal giapponese utilizzando l'AI
Leggi in giapponese
Questo articolo è di Pubblico Dominio (CC0). Sentiti libero di usarlo liberamente. CC0 1.0 Universal

Apprendimento Automatico del Linguaggio Naturale

L'apprendimento automatico tradizionale opera all'interno di un paradigma in cui i computer, esperti nel calcolo numerico, apprendono utilizzando dati numerici e acquisiscono parametri quantificati.

Tuttavia, gli esseri umani sono capaci di apprendere non solo attraverso meccanismi numerici ma anche attraverso il linguaggio. Organizziamo e registriamo le esperienze in parole, per poi richiamare, leggere e utilizzare tali parole.

I Modelli Linguistici di Grande Scala (LLM) possono allo stesso modo descrivere la conoscenza in parole e utilizzare la conoscenza leggendo parole.

Sfruttando gli LLM come processori di linguaggio naturale, diventa possibile l'apprendimento automatico basato sul linguaggio naturale, anziché unicamente sull'apprendimento automatico basato su numeri.

Per questo motivo, l'avvento degli LLM ha aperto un nuovo campo: l'apprendimento automatico del linguaggio naturale.

Il pre-addestramento degli LLM è una forma di apprendimento automatico numerico tradizionale. L'apprendimento automatico del linguaggio naturale qui discusso si riferisce a un nuovo tipo di apprendimento automatico che utilizza LLM pre-addestrati.

Modello Base di Apprendimento Automatico del Linguaggio Naturale

L'apprendimento automatico del linguaggio naturale possiede aspetti simili all'apprendimento automatico numerico convenzionale, così come aspetti completamente diversi.

Per cogliere innanzitutto il concetto di apprendimento automatico del linguaggio naturale, descriviamo un modello base concentrandoci sulle parti che assomigliano all'apprendimento automatico numerico tradizionale.

D'ora in poi, un Modello Linguistico di Grande Scala pre-addestrato verrà indicato come LLM. Si noti che i parametri dell'LLM non cambiano affatto durante questo processo di apprendimento.

Il modello base è un modello di apprendimento supervisionato, che si concentra su problemi di classificazione.

Per i dati di apprendimento, vengono preparate come risposte corrette più coppie di frasi di input e le loro classificazioni.

Ad esempio, supponiamo che un'azienda abbia un Dipartimento Affari Generali e un Dipartimento Affari Amministrativi.

Questi due dipartimenti hanno ruoli distinti. Per frasi di input come "La lampadina dell'ufficio è bruciata", "Ho dimenticato il mio badge di accesso" o "Voglio prenotare la sala principale della sede centrale", la classificazione indica quale dipartimento, Affari Generali o Affari Amministrativi, è responsabile.

Da questi dati di addestramento, solo le frasi di input vengono estratte e fornite all'LLM.

Qui, limitiamo intenzionalmente la risposta tramite un prompt di sistema come: "Si prega di indicare se il dipartimento responsabile per questa richiesta è Affari Generali o Affari Amministrativi. Non includere alcun carattere diverso da 'Affari Generali' o 'Affari Amministrativi' nella risposta."

Inizialmente, l'LLM genera una risposta senza conoscere questa azienda. Naturalmente, potrebbe essere scorretta, o occasionalmente corretta per caso.

Per ogni risposta, un sistema di insegnamento determina se è corretta o scorretta. Quindi, la combinazione della frase di input, della risposta dell'LLM e del risultato del giudizio viene salvata in una base di conoscenza.

Questo processo viene ripetuto per circa la metà dei dati di addestramento.

Per la restante metà dei dati di addestramento, tutte le informazioni registrate nella base di conoscenza vengono aggiunte al prompt di sistema per l'LLM, e viene eseguito lo stesso processo.

A questo punto, la base di conoscenza contiene informazioni sulla divisione dei compiti tra i dipartimenti Affari Generali e Affari Amministrativi di questa azienda, quindi la probabilità di una risposta corretta dovrebbe essere più alta rispetto alla prima metà dei dati.

In questo modo, un sistema che combina un LLM e una base di conoscenza può apprendere la divisione dei compiti per i dipartimenti Affari Generali e Affari Amministrativi di un'azienda.

Il meccanismo di apprendimento stesso è simile all'apprendimento automatico numerico tradizionale. La differenza è che i risultati dell'apprendimento vengono riflessi nella base di conoscenza, non nei parametri della rete neurale all'interno dell'LLM. Inoltre, la base di conoscenza registra il linguaggio naturale, non valori numerici.

Questo è il modello base dell'apprendimento automatico del linguaggio naturale.

La Realtà del Modello Base

Chiunque utilizzi gli LLM si renderà subito conto che questo modello base manca di realismo.

Questo perché non c'è bisogno di prendersi la briga di far determinare a un sistema di insegnamento giudizi di correttezza/errore; si potrebbe semplicemente inserire direttamente i dati di addestramento nel prompt di sistema fin dall'inizio.

Tuttavia, applicando il modello base e alterando leggermente lo scenario, esso acquista realismo.

Ad esempio, si immagini che il Dipartimento Affari Generali e il Dipartimento Affari Amministrativi creino congiuntamente un ufficio informazioni, e che un operatore umano assegni manualmente ogni richiesta in arrivo al dipartimento appropriato.

Viene creato un semplice sistema per aggiungere queste richieste e i relativi risultati di assegnazione a una base di conoscenza.

Quindi, utilizzando questa base di conoscenza, l'LLM può sostituire gli esseri umani e assegnare nuove richieste ai dipartimenti.

In questo caso, se l'LLM assegna erroneamente una richiesta destinata agli Affari Amministrativi agli Affari Generali, il personale degli Affari Generali riassegnerà la richiesta agli Affari Amministrativi. Anche questa informazione di riassegnazione viene registrata nella base di conoscenza.

Questo semplice meccanismo per la registrazione dei log di assegnazione, combinato con un LLM e una base di conoscenza, costituirebbe un modello di apprendimento automatico del linguaggio naturale supervisionato e realistico.

Il punto chiave qui, per ribadire, è che i parametri della rete neurale all'interno dell'LLM non cambiano affatto. Inoltre, il risultato dell'apprendimento basato sul feedback è una collezione di frasi in linguaggio naturale, non valori numerici.

E, senza dubbio, questo sistema implica l'apprendimento automatico, non l'apprendimento umano.

Pertanto, questa è una nuova forma di apprendimento automatico: l'apprendimento automatico del linguaggio naturale.

Punti di Forza dell'Apprendimento Automatico del Linguaggio Naturale

A differenza dell'apprendimento automatico numerico, l'apprendimento del linguaggio naturale offre molti vantaggi.

In una parola, la sua caratteristica distintiva è un'efficienza di apprendimento straordinariamente elevata.

L'apprendimento automatico numerico richiede generalmente una grande quantità di dati di addestramento e un apprendimento iterativo. Inoltre, è necessaria anche la pre-elaborazione dei dati di addestramento.

Una grande quantità di dati di addestramento è necessaria perché le caratteristiche da apprendere non sono contenute in un singolo dato, ma sono distribuite tra una vasta quantità di dati.

Per questo motivo, sono richiesti dati di addestramento dell'ordine del quadrato della dimensionalità delle caratteristiche veramente desiderate.

L'apprendimento iterativo è necessario per garantire che i parametri della rete neurale vengano appresi correttamente senza cadere in minimi locali, il che richiede di mantenere piccola la variazione dei parametri ad ogni feedback.

La pre-elaborazione dei dati di addestramento, come la normalizzazione e l'estrazione dei bordi, è necessaria per evidenziare le caratteristiche veramente desiderate. Anche questa pre-elaborazione richiede uno sforzo significativo.

Ad esempio, se la divisione dei compiti tra il Dipartimento Affari Amministrativi e il Dipartimento Affari Generali dovesse essere appresa utilizzando una rete neurale tradizionale, e le sue caratteristiche fossero a 50 dimensioni, sarebbero necessarie almeno circa 1.000 o più istanze di dati di addestramento. Inoltre, queste oltre 1.000 istanze di dati potrebbero dover essere apprese iterativamente circa 100 volte per ottenere una precisione di apprendimento adeguata.

Inoltre, se questo set di 1.000 istanze di dati di addestramento contiene parole superflue, variazioni di ortografia o una varietà di ordini di parole e strutture di frase, l'efficienza di apprendimento diminuisce e potrebbero essere apprese caratteristiche non correlate.

Pertanto, la pre-elaborazione per rimuovere parole superflue, standardizzare la terminologia per eliminare le variazioni e unificare l'ordine delle parole e la sintassi è indispensabile.

Al contrario, l'apprendimento automatico del linguaggio naturale richiede meno dati di addestramento, nessuna iterazione con gli stessi dati di addestramento e spesso nessuna pre-elaborazione.

Se le caratteristiche per la divisione dei compiti tra il Dipartimento Affari Amministrativi e il Dipartimento Affari Generali sono a 50 dimensioni, sono sufficienti 50 informazioni corrispondenti a ciascuna dimensione.

Inoltre, questo non significa che siano necessarie 50 frasi separate.

Una singola frase come "I compiti relativi ad A, B, C e D sono gestiti dal Dipartimento Affari Amministrativi" può comprendere quattro dimensioni di informazione.

Inoltre, astrando il linguaggio, le informazioni da più dimensioni possono essere aggregate. Una frase come "La manutenzione dei materiali di consumo e delle strutture dell'edificio è responsabilità del Dipartimento Affari Amministrativi" aggrega un'ampia gamma di informazioni dimensionali, inclusa la sostituzione delle lampadine e i malfunzionamenti delle porte automatiche.

Si può dire che questa astrazione riduce i dati di addestramento sfruttando la conoscenza pre-addestrata e le capacità di ragionamento dell'LLM.

E, fondamentalmente, l'apprendimento del linguaggio naturale non richiede un apprendimento iterativo. Una volta che la frase sopra menzionata viene aggiunta alla base di conoscenza, l'apprendimento è completato.

Inoltre, la pre-elaborazione della conoscenza è superflua. Anche se le spiegazioni del Dipartimento Affari Amministrativi o del Dipartimento Affari Generali sono mescolate in vari testi, possono comunque essere utilizzate come conoscenza.

Oppure, come nell'esempio precedente, i dati grezzi come i registri di richieste e assegnazioni possono essere immediatamente utilizzati come dati di addestramento senza pre-elaborazione.

Quindi, l'apprendimento automatico del linguaggio naturale può apprendere in modo molto più efficiente rispetto all'apprendimento automatico numerico.

Conclusione

Rispetto alle capacità di calcolo numerico ad alta velocità dei computer, la capacità di elaborazione del linguaggio naturale dei modelli linguistici di grandi dimensioni è piuttosto lenta.

Tuttavia, l'apprendimento automatico del linguaggio naturale consente un apprendimento efficiente, superando di gran lunga il divario tra il calcolo numerico ad alta velocità e l'elaborazione del linguaggio naturale lenta.

Inoltre, i modelli linguistici di grandi dimensioni, che hanno compiuto progressi sorprendenti attraverso l'apprendimento numerico, sembrano avvicinarsi ai limiti del miglioramento delle prestazioni tramite un semplice aumento di scala, secondo le leggi di scaling.

In uno scenario del genere, è altamente plausibile che l'attenzione si sposterà verso il potenziamento delle capacità tramite l'apprendimento automatico del linguaggio naturale.