Vai al Contenuto
Questo articolo è stato tradotto dal giapponese utilizzando l'AI
Leggi in giapponese
Questo articolo è di Pubblico Dominio (CC0). Sentiti libero di usarlo liberamente. CC0 1.0 Universal

Machine Learning del Linguaggio Naturale

Il machine learning tradizionale opera all'interno di un paradigma in cui i computer, abili nel calcolo numerico, apprendono da dati numerici e acquisiscono parametri numerici.

D'altra parte, noi siamo capaci di apprendere non solo attraverso meccanismi numerici ma anche attraverso il linguaggio. Organizziamo e registriamo le esperienze come parole, poi ricordiamo o leggiamo quelle parole per utilizzarle.

I grandi modelli linguistici possono analogamente descrivere la conoscenza usando le parole e utilizzare le parole leggendole.

Sfruttando i grandi modelli linguistici, che sono processori del linguaggio naturale, diventa possibile il machine learning basato sul linguaggio naturale, anziché solo il machine learning basato sui numeri.

Di conseguenza, l'avvento dei grandi modelli linguistici ha aperto un nuovo campo: il machine learning del linguaggio naturale.

L'addestramento preliminare dei grandi modelli linguistici è un machine learning numerico tradizionale. Il machine learning del linguaggio naturale qui descritto si riferisce a una nuova forma di machine learning che utilizza grandi modelli linguistici pre-addestrati.

Modello Base del Machine Learning del Linguaggio Naturale

Il machine learning del linguaggio naturale presenta aspetti simili e aspetti completamente diversi dal machine learning numerico tradizionale.

Innanzitutto, per avere un'idea del machine learning del linguaggio naturale, spiegheremo le parti simili al machine learning numerico tradizionale come modello base.

Da questo punto in poi, ci riferiremo a un grande modello linguistico pre-addestrato come LLM. Si prega di notare che i parametri dell'LLM non cambiano affatto durante questo processo di apprendimento.

Il modello base è l'apprendimento supervisionato, mirato a un problema di classificazione.

Vengono preparate diverse coppie di frasi di input e le loro classificazioni come risposte corrette per i dati di addestramento.

Ad esempio, supponiamo che un'azienda abbia un Dipartimento Affari Generali e un Dipartimento Affari Amministrativi.

Questi due dipartimenti hanno una divisione dei compiti. Per frasi di input come "La lampadina dell'ufficio è bruciata", "Ho dimenticato la mia tessera di accesso" o "Voglio prenotare la sala principale della sede centrale", la classificazione indica se è responsabile il Dipartimento Affari Generali o il Dipartimento Affari Amministrativi.

Da questi dati di addestramento, solo le frasi di input vengono estratte e immesse nell'LLM.

Qui, come prompt di sistema, restringiamo intenzionalmente la risposta affermando: "Si prega di indicare quale dipartimento, Affari Generali o Affari Amministrativi, è responsabile di questa richiesta. Non includere alcun carattere diverso da 'Affari Generali' o 'Affari Amministrativi' nella risposta."

Inizialmente, l'LLM genererà risposte senza alcuna conoscenza di questa azienda. Naturalmente, alcune risposte saranno errate, mentre altre potrebbero essere corrette per caso.

Per ogni risposta, il sistema insegnante determina se è corretta o errata. Quindi, la combinazione della frase di input, della risposta dell'LLM e del risultato del giudizio viene salvata in una base di conoscenza.

Questo processo viene ripetuto per circa la metà dei dati di addestramento.

Per la restante metà dei dati di addestramento, viene eseguito lo stesso processo, ma questa volta tutte le informazioni registrate nella base di conoscenza vengono aggiunte al prompt di sistema per l'LLM.

A questo punto, la base di conoscenza contiene informazioni sulla divisione dei compiti tra i dipartimenti Affari Generali e Affari Amministrativi di questa azienda, quindi la probabilità di ottenere risposte corrette dovrebbe essere maggiore rispetto alla prima metà dei dati.

In questo modo, un sistema che combina l'LLM e la base di conoscenza può apprendere la divisione dei compiti tra i dipartimenti Affari Generali e Affari Amministrativi di questa azienda.

Il meccanismo di apprendimento stesso è simile al machine learning numerico tradizionale. La differenza è che i risultati dell'apprendimento si riflettono nella base di conoscenza, non nei parametri della rete neurale all'interno dell'LLM. E, nella base di conoscenza viene registrato il linguaggio naturale, non i numeri.

Questo è il modello base del machine learning del linguaggio naturale.

Realismo del Modello Base

Chiunque utilizzi gli LLM si renderà subito conto che questo modello base manca di realismo.

Questo perché, anziché sobbarcarsi il compito di far determinare a un sistema "insegnante" le risposte corrette e scorrette, si potrebbe semplicemente inserire i dati di addestramento stessi nel prompt di sistema fin dall'inizio.

Tuttavia, applicando il modello base e alterando leggermente lo scenario, si ottiene realismo.

Ad esempio, supponiamo che i dipartimenti Affari Generali e Affari Amministrativi istituiscano congiuntamente un punto informazioni, e che gli esseri umani smistino individualmente le richieste in arrivo al dipartimento appropriato.

Si può creare un semplice sistema per aggiungere queste richieste e i loro risultati di instradamento a una base di conoscenza.

Quindi, utilizzando questa base di conoscenza, l'LLM può subentrare agli esseri umani nell'instradare le nuove richieste ai dipartimenti.

In questo caso, se l'LLM instrada erroneamente una richiesta destinata agli Affari Amministrativi agli Affari Generali, la persona incaricata agli Affari Generali re-instraderà la richiesta agli Affari Amministrativi. Anche queste informazioni di re-instradamento vengono registrate nella base di conoscenza.

Questo semplice meccanismo per la registrazione dei log di instradamento, combinato con il sistema LLM e la base di conoscenza, diventerebbe un modello supervisionato realistico per il machine learning del linguaggio naturale.

Il punto chiave qui, ancora una volta, è che i parametri della rete neurale all'interno dell'LLM non cambiano affatto. E i risultati dell'apprendimento basato sul feedback non sono valori numerici, ma piuttosto raccolte di frasi in linguaggio naturale.

Inoltre, questo sistema è inequivocabilmente un sistema di apprendimento automatico, non di apprendimento umano.

Pertanto, questa è una nuova forma di machine learning: il machine learning attraverso il linguaggio naturale.

Punti di Forza del Machine Learning del Linguaggio Naturale

A differenza del machine learning numerico, l'apprendimento del linguaggio naturale offre molti vantaggi.

In una parola, la sua caratteristica distintiva è la sua travolgente efficienza di apprendimento.

Il machine learning numerico richiede generalmente una grande quantità di dati di addestramento e un apprendimento iterativo. È anche necessaria una pre-elaborazione dei dati di addestramento.

È necessaria una grande quantità di dati di addestramento perché le caratteristiche che si desidera apprendere non sono contenute in un singolo dato, ma sono distribuite su un grande volume di dati.

Per questo motivo, sono necessari dati di addestramento dell'ordine del quadrato della dimensione delle caratteristiche veramente desiderate.

L'apprendimento iterativo è necessario perché la variazione dei parametri durante un singolo ciclo di feedback deve essere piccola per garantire che i parametri della rete neurale siano appresi in modo appropriato senza cadere in ottimi locali.

La pre-elaborazione dei dati di addestramento, come la normalizzazione e l'estrazione dei bordi, è necessaria per evidenziare le caratteristiche veramente desiderate. Questa pre-elaborazione richiede anche uno sforzo significativo.

Ad esempio, se la divisione dei compiti tra i dipartimenti amministrativo e affari generali dovesse essere appresa utilizzando una rete neurale tradizionale, e le sue caratteristiche fossero a 50 dimensioni, sarebbero richiesti almeno 1000 o più punti dati di addestramento. Inoltre, questi oltre 1000 punti dati potrebbero dover essere iterati circa 100 volte per raggiungere un'adeguata precisione di apprendimento.

Inoltre, se questi 1000 punti dati contengono parole estranee, variazioni nell'ortografia delle parole o una varietà di ordini di parole e sintassi, l'efficienza di apprendimento diminuirà o verranno apprese caratteristiche irrilevanti.

Pertanto, la pre-elaborazione per rimuovere parole estranee, standardizzare il vocabolario per eliminare le variazioni e unificare l'ordine delle parole e la sintassi è indispensabile.

D'altra parte, il machine learning del linguaggio naturale richiede meno dati di addestramento, non richiede l'iterazione con gli stessi dati di addestramento e, in molti casi, non richiede pre-elaborazione.

Se le caratteristiche della divisione dei compiti tra i dipartimenti amministrativo e affari generali sono a 50 dimensioni, 50 pezzi di informazione corrispondenti a ciascuna dimensione sono spesso sufficienti.

Inoltre, questo non significa che siano necessarie 50 frasi separate.

Una singola frase come "I compiti relativi a A, B, C e D sono gestiti dal dipartimento amministrativo" può includere informazioni per quattro dimensioni.

Inoltre, astratto il linguaggio, le informazioni da più dimensioni possono essere aggregate. Una singola frase come "Il dipartimento amministrativo è responsabile dei materiali di consumo per gli edifici e della manutenzione delle attrezzature" aggrega informazioni da una vasta gamma di dimensioni, inclusa la sostituzione di lampadine e i malfunzionamenti delle porte automatiche.

Questa astrazione sfrutta le conoscenze e le capacità di ragionamento pre-addestrate dell'LLM, riducendo così la quantità di dati di addestramento necessari.

E, fondamentalmente, l'apprendimento del linguaggio naturale non richiede un apprendimento iterativo. Una volta che la frase di cui sopra viene aggiunta alla base di conoscenza, l'apprendimento è completo.

Inoltre, la pre-elaborazione della conoscenza non è necessaria. Anche se le descrizioni dei dipartimenti amministrativo o affari generali sono mescolate con varie altre frasi, possono comunque essere utilizzate come conoscenza.

In alternativa, i dati grezzi, come i log di richieste e assegnazioni come nell'esempio precedente, possono essere immediatamente utilizzati come dati di addestramento senza pre-elaborazione.

In questo modo, il machine learning del linguaggio naturale può apprendere in modo molto più efficiente rispetto al machine learning numerico.

Conclusione

Rispetto alle capacità di calcolo numerico ad alta velocità dei computer, le capacità di elaborazione del linguaggio naturale dei grandi modelli linguistici sono piuttosto lente.

Tuttavia, il machine learning del linguaggio naturale consente un apprendimento più efficiente rispetto al machine learning numerico.

Questa efficienza supera di gran lunga il divario tra le capacità di calcolo numerico ad alta velocità e le lente capacità di elaborazione del linguaggio naturale.

Inoltre, i grandi modelli linguistici, che hanno subito un'evoluzione sorprendente attraverso l'apprendimento numerico, sembrano avvicinarsi a un limite nel miglioramento delle capacità attraverso una semplice scalabilità, secondo le leggi di scala.

In tal caso, è altamente concepibile che l'attenzione si sposterà sul miglioramento delle capacità attraverso il machine learning del linguaggio naturale.