De huidige generatieve AI is een AI-technologie die tot bloei is gekomen dankzij de uitvinding van Transformers, wat een grote doorbraak was.
Het aandachtsmechanisme (Attention Mechanism) is wat de Transformer in één zin kenmerkt. Dit komt beknopt tot uiting in de titel van het artikel waarin de Transformer werd aangekondigd: "Attention is All You Need."
Dit vindt zijn oorsprong in het feit dat AI-onderzoekers destijds diverse inspanningen en proeven deden om AI in staat te stellen natuurlijke taal net zo vaardig te verwerken als mensen, waarbij ze verschillende succesvolle methoden benoemden en publiceerden.
Veel onderzoekers geloofden dat door het combineren van deze meerdere goed functionerende mechanismen op diverse manieren, AI die natuurlijke taal zoals mensen kon verwerken geleidelijk zou ontstaan. Ze werkten daarom aan het vinden van nieuwe mechanismen die in combinatie met andere mechanismen konden functioneren, en het ontdekken van de optimale combinaties van deze mechanismen.
De Transformer keerde deze conventionele wijsheid echter om. De boodschap dat het onnodig is om verschillende mechanismen te combineren, en dat alles wat nodig is het aandachtsmechanisme is, wordt uitgedrukt in de titel van het artikel.
Natuurlijk omvat de Transformer zelf verschillende mechanismen, maar het lijdt geen twijfel dat het aandachtsmechanisme daaronder bijzonder baanbrekend en onderscheidend was.
Overzicht van het Aandachtsmechanisme
Het aandachtsmechanisme is een systeem dat, tijdens het woord voor woord verwerken van natuurlijke taal, kan leren aan welke van de vele voorgaande woorden in een zin het "aandacht moet besteden" bij het verwerken van een bepaald woord.
Dit stelt het in staat om nauwkeurig te begrijpen waarnaar woorden als "deze", "dat" of "het bovengenoemde" (die verwijzen naar woorden in eerdere zinnen), of zinsdelen als "de openingszin", "het tweede genoemde voorbeeld" of "de vorige paragraaf" (die posities in de tekst aangeven), verwijzen.
Bovendien kan het woorden correct interpreteren, zelfs wanneer bijvoeglijke bepalingen ver weg staan in een zin, en zelfs wanneer een tekst lang wordt, kan het interpreteren zonder de context van het huidige woord tussen andere zinnen te verliezen.
Dit is het nut van "aandacht".
Omgekeerd betekent dit ook dat bij het interpreteren van het woord dat momenteel wordt verwerkt, onnodige woorden worden gemaskeerd en uit de interpretatie worden verwijderd.
Door alleen de woorden te behouden die nodig zijn voor de interpretatie van een bepaald woord en irrelevante woorden te verwijderen, blijft de set van te interpreteren woorden beperkt tot een klein aantal, ongeacht hoe lang de tekst is, waardoor wordt voorkomen dat de interpretatiedichtheid wordt verdund.
Virtuele Intelligentie
Nu, om van onderwerp te veranderen, heb ik nagedacht over het concept van virtuele intelligentie.
Momenteel, bij het zakelijk gebruik van generatieve AI, als je alle informatie binnen een bedrijf consolideert en deze als kennis aan de generatieve AI aanbiedt, kan de enorme hoeveelheid kennis het voor de AI juist moeilijk maken om deze adequaat te verwerken.
Om deze reden werkt het beter om kennis per taak te verdelen, door AI-chats voor elke taak voor te bereiden of AI-tools te maken die gespecialiseerd zijn in specifieke bewerkingen.
Dit impliceert dat voor complexe taken het noodzakelijk wordt om deze gesegmenteerde, op kennis gebaseerde AI-chats en tools te combineren.
Dit is een huidige beperking bij het gebruik van generatieve AI, maar zelfs bij toekomstige generatieve AI zou voor specifieke taken het focussen op alleen de kennis die nodig is voor die taak, hogere nauwkeurigheid moeten opleveren.
In plaats daarvan geloof ik dat toekomstige generatieve AI intern kan schakelen tussen noodzakelijke kennissets, afhankelijk van de situatie, zelfs zonder dat mensen de kennis hoeven te segmenteren.
Deze capaciteit is virtuele intelligentie. Het is als een virtuele machine die meerdere verschillende besturingssystemen op één computer kan draaien. Het betekent dat binnen één intelligentie, meerdere virtuele intelligenties met verschillende specialisaties kunnen functioneren.
Zelfs de huidige generatieve AI kan al discussies tussen meerdere mensen simuleren of verhalen genereren met meerdere personages. Daarom is virtuele intelligentie geen speciale vaardigheid, maar eerder een uitbreiding van de huidige generatieve AI.
Micro Virtuele Intelligentie
Het mechanisme van virtuele intelligentie, dat de benodigde kennis per taak verkleint, voert iets uit dat vergelijkbaar is met het aandachtsmechanisme.
Dat wil zeggen, het lijkt op het aandachtsmechanisme doordat het zich alleen richt op relevante kennis, afhankelijk van de taak die momenteel wordt verwerkt.
Omgekeerd kan worden gesteld dat het aandachtsmechanisme een mechanisme is dat iets vergelijkbaars met virtuele intelligentie realiseert. De virtuele intelligentie die ik echter beschouw, is een mechanisme dat relevante kennis selecteert uit een reeks kennis, terwijl het aandachtsmechanisme opereert op een reeks woorden.
Om deze reden kan het aandachtsmechanisme een micro virtuele intelligentie worden genoemd.
Expliciet Aandachtsmechanisme
Als we het aandachtsmechanisme als micro virtuele intelligentie beschouwen, dan kan omgekeerd de virtuele intelligentie die ik eerder noemde, worden gerealiseerd door een macro aandachtsmechanisme te construeren.
En dit macro aandachtsmechanisme hoeft niet te worden toegevoegd aan de interne structuur van grote taalmodellen, noch neurale netwerktraining te omvatten.
Het kan simpelweg een expliciete zin zijn die in natuurlijke taal is geschreven, zoals "Bij het uitvoeren van Taak A, raadpleeg Kennis B en Kennis C."
Dit verduidelijkt de kennis die nodig is voor Taak A. Deze zin zelf is een soort kennis.
Dit zou een expliciet aandachtsmechanisme genoemd kunnen worden. Deze zin kan worden beschreven als aandachts-kennis, die expliciet de kennis vermeldt waarop moet worden gefocust bij het uitvoeren van Taak A.
Bovendien kan deze aandachts-kennis worden gegenereerd of bijgewerkt door generatieve AI.
Als een taak mislukt vanwege een gebrek aan kennis, dan kan, als geleerde les, de aandachts-kennis worden bijgewerkt om aanvullende kennis op te nemen die voor die taak geraadpleegd moet worden.
Conclusie
Het aandachtsmechanisme heeft de mogelijkheden van generatieve AI drastisch verbeterd.
Het was niet zomaar een mechanisme dat toevallig goed werkte; zoals we hier hebben gezien, lijkt het mechanisme van het dynamisch verfijnen van de informatie waarnaar in elke situatie wordt verwezen, de essentie te zijn van geavanceerde intelligentie.
En net als virtuele intelligentie en expliciete aandachts-kennis, is het aandachtsmechanisme ook de sleutel tot het recursief verder ontwikkelen van intelligentie op verschillende lagen.