L'attuale IA generativa è una tecnologia AI fiorita grazie all'invenzione dei Transformer, che ha rappresentato una svolta importante.
Il Meccanismo di Attenzione è ciò che caratterizza il Transformer in una singola frase. Questo è espresso sinteticamente nel titolo del paper che annunciava il Transformer: "Attention is All You Need."
Ciò affonda le sue radici nel fatto che i ricercatori di IA dell'epoca stavano compiendo vari sforzi e tentativi per consentire all'IA di gestire il linguaggio naturale con la stessa maestria degli esseri umani, denominando e pubblicando paper su vari metodi di successo.
Molti ricercatori credevano che combinando in modi diversi questi molteplici meccanismi ben funzionanti, sarebbe gradualmente emersa un'IA capace di gestire il linguaggio naturale come gli esseri umani. Stavano quindi lavorando per trovare nuovi meccanismi che potessero funzionare in combinazione con altri meccanismi, e scoprendo le combinazioni ottimali di questi meccanismi.
Tuttavia, il Transformer ha sovvertito questa saggezza convenzionale. Il messaggio che non è necessario combinare vari meccanismi, e che tutto ciò che serve è il meccanismo di attenzione, è espresso nel titolo del paper.
Naturalmente, il Transformer stesso incorpora vari meccanismi, ma non c'è dubbio che tra questi, il meccanismo di attenzione sia stato particolarmente innovativo e distintivo.
Panoramica del Meccanismo di Attenzione
Il meccanismo di attenzione è un sistema che, durante il processo di trattamento del linguaggio naturale parola per parola, può imparare a quali delle molte parole precedenti in una frase dovrebbe "prestare attenzione" quando elabora una data parola.
Ciò gli consente di comprendere accuratamente a cosa si riferiscono parole come "questo", "quello" o "il suddetto" (che si riferiscono a parole contenute in frasi precedenti), o frasi come "la frase iniziale", "il secondo esempio elencato" o "il paragrafo precedente" (che indicano posizioni nel testo).
Inoltre, può interpretare correttamente le parole anche quando i modificatori sono distanti all'interno di una frase, e anche quando un testo diventa lungo, può interpretare senza perdere il contesto della parola corrente tra le altre frasi.
Questa è l'utilità dell'"attenzione".
Al contrario, ciò significa anche che quando si interpreta la parola attualmente in elaborazione, le parole non necessarie vengono mascherate e rimosse dall'interpretazione.
Mantenendo solo le parole necessarie per l'interpretazione di una data parola e rimuovendo quelle irrilevanti, l'insieme di parole da interpretare rimane limitato a un piccolo numero, indipendentemente dalla lunghezza del testo, impedendo così che la densità di interpretazione si diluisca.
Intelligenza Virtuale
Ora, cambiando leggermente argomento, ho riflettuto sul concetto di intelligenza virtuale.
Attualmente, quando si utilizza l'IA generativa per scopi aziendali, se si consolida tutta l'informazione all'interno di un'azienda e la si fornisce come conoscenza all'IA generativa, il volume eccessivo di conoscenza può effettivamente rendere difficile per l'IA gestirla in modo appropriato.
Per questo motivo, è più efficace dividere la conoscenza per compito, preparando chat AI per ogni compito o creando strumenti AI specializzati per operazioni specifiche.
Ciò implica che per compiti complessi, diventa necessario combinare queste chat AI e strumenti basati su conoscenza segmentata.
Questa è una limitazione attuale nell'uso dell'IA generativa, ma anche con future IA generative, per compiti specifici, concentrarsi solo sulla conoscenza richiesta per quel compito dovrebbe produrre una maggiore precisione.
Credo invece che le future IA generative saranno in grado di passare internamente tra i set di conoscenza necessari a seconda della situazione, anche senza che gli esseri umani debbano segmentare la conoscenza.
Questa capacità è l'intelligenza virtuale. È come una macchina virtuale che può eseguire più sistemi operativi diversi su un singolo computer. Significa che all'interno di un'unica intelligenza, possono funzionare più intelligenze virtuali con diverse specializzazioni.
Anche l'attuale IA generativa può già simulare discussioni tra più persone o generare storie con più personaggi. Pertanto, l'intelligenza virtuale non è una capacità speciale, ma piuttosto un'estensione dell'attuale IA generativa.
Micro Intelligenza Virtuale
Il meccanismo dell'intelligenza virtuale, che restringe la conoscenza necessaria in base al compito, esegue qualcosa di simile al meccanismo di attenzione.
Vale a dire, è simile al meccanismo di attenzione in quanto si concentra solo sulla conoscenza rilevante a seconda del compito attualmente in elaborazione.
Al contrario, si può dire che il meccanismo di attenzione sia un meccanismo che realizza qualcosa di simile all'intelligenza virtuale. Tuttavia, l'intelligenza virtuale che sto considerando è un meccanismo che seleziona la conoscenza rilevante da un insieme di conoscenze, mentre il meccanismo di attenzione opera su un insieme di parole.
Per questo motivo, il meccanismo di attenzione può essere chiamato una micro intelligenza virtuale.
Meccanismo di Attenzione Esplicito
Se consideriamo il meccanismo di attenzione come micro intelligenza virtuale, allora, al contrario, l'intelligenza virtuale che ho menzionato in precedenza può essere realizzata costruendo un meccanismo di attenzione macro.
E questo meccanismo di attenzione macro non ha bisogno di essere aggiunto alla struttura interna dei modelli linguistici di grandi dimensioni o di coinvolgere l'addestramento di reti neurali.
Può essere semplicemente una frase esplicita scritta in linguaggio naturale, come "Quando si esegue il Compito A, fare riferimento alla Conoscenza B e alla Conoscenza C."
Questo chiarisce la conoscenza necessaria per il Compito A. Questa frase stessa è un tipo di conoscenza.
Questo potrebbe essere chiamato un meccanismo di attenzione esplicito. Questa frase può essere descritta come conoscenza di attenzione, che dichiara esplicitamente la conoscenza su cui ci si dovrebbe concentrare quando si esegue il Compito A.
Inoltre, questa conoscenza di attenzione può essere generata o aggiornata dall'IA generativa.
Se un compito fallisce a causa di una mancanza di conoscenza, allora, come lezione appresa, la conoscenza di attenzione può essere aggiornata per includere conoscenze aggiuntive che dovrebbero essere referenziate per quel compito.
Conclusione
Il meccanismo di attenzione ha migliorato drasticamente le capacità dell'IA generativa.
Non è stato semplicemente un meccanismo che ha funzionato bene per caso; come abbiamo visto qui, il meccanismo stesso di restringere dinamicamente le informazioni a cui fare riferimento in ogni situazione sembra essere l'essenza dell'intelligenza avanzata.
E come l'intelligenza virtuale e la conoscenza di attenzione esplicita, il meccanismo di attenzione è anche la chiave per far progredire ricorsivamente l'intelligenza a vari livelli.