Vai al Contenuto
Questo articolo è stato tradotto dal giapponese utilizzando l'AI
Leggi in giapponese
Questo articolo è di Pubblico Dominio (CC0). Sentiti libero di usarlo liberamente. CC0 1.0 Universal

Il Meccanismo di Attenzione come Micro Intelligenza Virtuale

L'attuale IA generativa è una tecnologia AI sbocciata con l'invenzione del Transformer, che ha rappresentato una svolta decisiva.

Il Meccanismo di Attenzione può essere descritto come la caratteristica distintiva del Transformer. Ciò è espresso sinteticamente nel titolo del paper che annunciava il Transformer: “Attention Is All You Need” (L'attenzione è tutto ciò di cui hai bisogno).

Il contesto è che i ricercatori di IA dell'epoca stavano compiendo vari sforzi e tentativi per consentire all'IA di gestire il linguaggio naturale con la stessa abilità degli esseri umani, dando un nome ai metodi di successo e pubblicando articoli su di essi.

Molti ricercatori credevano che combinando questi molteplici meccanismi efficaci in modi diversi, avrebbero potuto gradualmente creare un'IA capace di gestire il linguaggio naturale come gli esseri umani. Si concentravano sulla scoperta di nuovi meccanismi che potessero funzionare in combinazione con altri, e sulla ricerca delle combinazioni ottimali di questi meccanismi.

Tuttavia, il Transformer ha sovvertito questa saggezza convenzionale. Il messaggio che non c'era bisogno di combinare vari meccanismi, e che era necessario solo il Meccanismo di Attenzione, era evidente nel titolo del paper.

Sebbene il Transformer stesso incorpori certamente vari meccanismi, non c'è dubbio che il Meccanismo di Attenzione sia stato particolarmente innovativo e distintivo tra di essi.

Panoramica del Meccanismo di Attenzione

Il Meccanismo di Attenzione è un sistema che consente all'IA di apprendere a quali parole, tra le molte contenute nelle frasi precedenti, dovrebbe prestare attenzione durante l'elaborazione di una parola specifica nel linguaggio naturale.

Ciò permette all'IA di comprendere accuratamente a cosa si riferisce una parola, ad esempio, quando si tratta di dimostrativi come "questo", "quello" o "il suddetto" (che indicano una parola in una frase precedente), o di riferimenti posizionali come "la frase iniziale", "il secondo esempio elencato" o "il paragrafo precedente".

Inoltre, può interpretare correttamente i modificatori anche se sono distanti in una frase, e persino in testi lunghi, può interpretare le parole senza perdere il contesto a cui la parola attuale si riferisce, impedendole di perdersi tra le altre frasi.

Questa è l'utilità dell'"attenzione".

Al contrario, ciò significa che, durante l'interpretazione della parola attualmente in elaborazione, le parole non necessarie vengono mascherate e rimosse dall'interpretazione.

Mantenendo solo le parole essenziali per interpretare una data parola e rimuovendo quelle irrilevanti, l'insieme delle parole da interpretare rimane limitato a poche, indipendentemente dalla lunghezza del testo, prevenendo così che la densità interpretativa si diluisca.

Intelligenza Virtuale

Ora, cambiando leggermente argomento, ho riflettuto sul concetto di intelligenza virtuale.

Attualmente, quando si utilizza l'IA generativa per scopi aziendali, se tutte le informazioni all'interno di un'azienda vengono consolidate e fornite come un'unica base di conoscenza all'IA, l'enorme volume di conoscenza può diventare soverchiante, portando al fenomeno per cui l'IA non riesce a elaborarle correttamente.

Per questo motivo, è più efficace separare la conoscenza per compito, preparando chat AI per ogni compito o creando strumenti AI specializzati per operazioni specifiche.

Di conseguenza, quando si eseguono compiti complessi, diventa necessario combinare queste chat AI o strumenti AI, ciascuno con la propria conoscenza segregata.

Sebbene ciò rappresenti un limite attuale dell'IA generativa, in fondo, anche con l'IA generativa futura, concentrarsi esclusivamente sulla conoscenza richiesta per un compito specifico dovrebbe portare a una maggiore precisione.

Credo invece che l'IA generativa futura sarà in grado di differenziare e utilizzare internamente la conoscenza necessaria in base alla situazione, anche senza che gli esseri umani debbano segmentarla.

Questa capacità è l'intelligenza virtuale. È come una macchina virtuale che può eseguire più sistemi operativi diversi su un singolo computer. Significa che all'interno di una singola intelligenza, possono funzionare più intelligenze virtuali con diverse specializzazioni.

Anche l'attuale IA generativa può già simulare discussioni tra più persone o generare storie con più personaggi. Pertanto, l'intelligenza virtuale non è una capacità speciale, ma piuttosto un'estensione dell'attuale IA generativa.

Micro Intelligenza Virtuale

Il meccanismo dell'intelligenza virtuale, che restringe la conoscenza necessaria in base al compito, svolge qualcosa di simile al Meccanismo di Attenzione.

In altre parole, è analogo al Meccanismo di Attenzione in quanto si concentra e elabora solo la conoscenza pertinente in base al compito che si sta eseguendo.

Al contrario, il Meccanismo di Attenzione può essere considerato un meccanismo che realizza qualcosa di simile all'intelligenza virtuale. Tuttavia, mentre l'intelligenza virtuale che immagino seleziona la conoscenza pertinente da una raccolta di conoscenze, il Meccanismo di Attenzione opera sull'unità di una raccolta di parole.

Per questo motivo, il Meccanismo di Attenzione può essere chiamato Micro Intelligenza Virtuale.

Meccanismo di Attenzione Esplicito

Se consideriamo il Meccanismo di Attenzione come micro intelligenza virtuale, allora, al contrario, l'intelligenza virtuale che ho menzionato in precedenza può essere realizzata costruendo un meccanismo di attenzione macro.

E questo meccanismo di attenzione macro non ha bisogno di essere aggiunto alla struttura interna dei modelli linguistici di grandi dimensioni o di coinvolgere l'apprendimento delle reti neurali.

Può essere semplicemente una dichiarazione esplicita scritta in linguaggio naturale, come: "Quando si esegue il Compito A, fare riferimento alla Conoscenza B e alla Conoscenza C."

Questo chiarisce la conoscenza richiesta per il Compito A. Questa dichiarazione stessa è un tipo di conoscenza.

Questo potrebbe essere chiamato Meccanismo di Attenzione Esplicito. Questa dichiarazione può essere considerata come Conoscenza di Attenzione, che articola esplicitamente la conoscenza su cui ci si dovrebbe concentrare quando si esegue il Compito A.

Inoltre, questa Conoscenza di Attenzione può essere generata o aggiornata dall'IA generativa.

Se un compito fallisce a causa di una mancanza di conoscenza, la Conoscenza di Attenzione può essere aggiornata per includere conoscenze aggiuntive come riferimento per quel compito, basandosi su questa riflessione.

Conclusione

Il Meccanismo di Attenzione ha fatto progredire notevolmente le capacità dell'IA generativa.

Non si è trattato solo di un meccanismo che ha funzionato bene per caso; piuttosto, come abbiamo visto qui, il meccanismo stesso di restringere dinamicamente le informazioni a cui fare riferimento per ogni situazione sembra essere l'essenza dell'intelligenza avanzata.

E, come l'intelligenza virtuale e la conoscenza di attenzione esplicita, il Meccanismo di Attenzione è anche la chiave per migliorare ricorsivamente l'intelligenza su vari livelli.