Naar inhoud springen
Dit artikel is vanuit het Japans vertaald met behulp van AI
Lees in het Japans
Dit artikel is in het Publiek Domein (CC0). Voel je vrij om het vrij te gebruiken. CC0 1.0 Universal

Aandachtsmechanisme als Micro Virtuele Intelligentie

De huidige generatieve AI is een AI-technologie die tot bloei kwam met de uitvinding van de Transformer als een baanbrekende ontwikkeling.

Het aandachtsmechanisme kan worden beschreven als de bepalende eigenschap van de Transformer. Dit wordt treffend uitgedrukt in de titel van het paper waarin de Transformer werd aangekondigd: "Attention Is All You Need."

De achtergrond hiervan is dat AI-onderzoekers destijds diverse inspanningen leverden en trial-and-error toepasten om AI in staat te stellen natuurlijke taal even vaardig te hanteren als mensen, waarbij ze succesvolle methoden een naam gaven en er papers over publiceerden.

Veel onderzoekers geloofden dat ze, door deze meerdere effectieve mechanismen op diverse manieren te combineren, geleidelijk AI konden creëren die natuurlijke taal kon verwerken zoals mensen. Ze richtten zich op het ontdekken van nieuwe mechanismen die in combinatie met andere konden functioneren, en op het vinden van de optimale combinaties van deze mechanismen.

De Transformer doorbrak echter deze conventionele wijsheid. De boodschap dat het niet nodig was om verschillende mechanismen te combineren, en dat alleen het aandachtsmechanisme nodig was, bleek duidelijk uit de titel van het paper.

Hoewel de Transformer zelf zeker diverse mechanismen omvat, lijdt het geen twijfel dat het aandachtsmechanisme daaronder bijzonder baanbrekend en onderscheidend was.

Overzicht van het Aandachtsmechanisme

Het aandachtsmechanisme is een systeem waarmee AI kan leren welke woorden, van de vele in voorafgaande zinnen, het aandacht moet geven bij het verwerken van een specifiek woord in natuurlijke taal.

Dit stelt de AI in staat om nauwkeurig te begrijpen waarnaar een woord verwijst, bijvoorbeeld bij aanwijzende voornaamwoorden zoals "deze," "dat," of "het voornoemde" (verwijzend naar een woord in een vorige zin), of positionele verwijzingen zoals "de openingszin," "het tweede genoemde voorbeeld," of "de voorgaande paragraaf."

Bovendien kan het correct bepalingen interpreteren, zelfs als ze ver uit elkaar staan in een zin, en zelfs in lange teksten kan het woorden interpreteren zonder de context waarnaar het huidige woord verwijst te verliezen, waardoor het niet verdwaalt tussen andere zinnen.

Dit is het nut van "aandacht."

Omgekeerd betekent dit dat bij het interpreteren van het momenteel verwerkte woord, onnodige woorden worden gemaskeerd en uit de interpretatie worden verwijderd.

Door alleen de woorden te behouden die essentieel zijn voor het interpreteren van een gegeven woord en irrelevante woorden te verwijderen, blijft de reeks te interpreteren woorden beperkt tot enkele, hoe lang de tekst ook is, waardoor de interpretatiedichtheid niet verdund wordt.

Virtuele Intelligentie

Nu, om even van onderwerp te veranderen, heb ik nagedacht over het concept van virtuele intelligentie.

Momenteel, wanneer generatieve AI voor zakelijke doeleinden wordt gebruikt, kan, als alle informatie binnen een bedrijf wordt samengevoegd en als één enkele kennisbank aan de AI wordt aangeboden, het enorme volume aan kennis overweldigend worden, wat leidt tot het fenomeen dat de AI deze niet correct kan verwerken.

Om deze reden is het effectiever om kennis per taak te scheiden, door voor elke taak AI-chats voor te bereiden of AI-tools te creëren die gespecialiseerd zijn in specifieke bewerkingen.

Dientengevolge wordt het bij het uitvoeren van complexe taken noodzakelijk om deze AI-chats of AI-tools te combineren, elk met hun gescheiden kennis.

Hoewel dit een huidige beperking van generatieve AI vertegenwoordigt, zou het fundamenteel, zelfs met toekomstige generatieve AI, moeten leiden tot een hogere nauwkeurigheid wanneer men zich uitsluitend richt op de kennis die voor een specifieke taak vereist is.

In plaats daarvan geloof ik dat toekomstige generatieve AI in staat zal zijn om intern de benodigde kennis te differentiëren en te gebruiken, afhankelijk van de situatie, zelfs zonder dat mensen die kennis hoeven te segmenteren.

Dit vermogen is virtuele intelligentie. Het is als een virtuele machine die meerdere verschillende besturingssystemen op één computer kan draaien. Het betekent dat binnen één intelligentie, meerdere virtuele intelligenties met verschillende specialisaties kunnen functioneren.

Zelfs de huidige generatieve AI kan al discussies simuleren tussen meerdere personen of verhalen genereren met meerdere karakters. Daarom is virtuele intelligentie geen speciale vaardigheid, maar eerder een uitbreiding van de huidige generatieve AI.

Micro Virtuele Intelligentie

Het mechanisme van virtuele intelligentie, dat de benodigde kennis per taak afbakent, voert iets uit dat vergelijkbaar is met het aandachtsmechanisme.

Met andere woorden, het is analoog aan het aandachtsmechanisme in die zin dat het zich richt op en alleen de relevante kennis verwerkt op basis van de taak die momenteel wordt uitgevoerd.

Omgekeerd kan worden gezegd dat het aandachtsmechanisme een mechanisme is dat iets vergelijkbaars met virtuele intelligentie realiseert. Echter, terwijl de virtuele intelligentie die ik voor ogen heb relevante kennis selecteert uit een verzameling kennis, werkt het aandachtsmechanisme op het niveau van een verzameling woorden.

Om deze reden kan het aandachtsmechanisme Micro Virtuele Intelligentie worden genoemd.

Expliciet Aandachtsmechanisme

Als we het aandachtsmechanisme beschouwen als micro virtuele intelligentie, dan kan, omgekeerd, de eerder door mij genoemde virtuele intelligentie worden bereikt door een macro aandachtsmechanisme te construeren.

En dit macro aandachtsmechanisme hoeft niet te worden toegevoegd aan de interne structuur van grote taalmodellen of neurale netwerkleren te omvatten.

Het kan simpelweg een expliciete verklaring in natuurlijke taal zijn, zoals: "Bij het uitvoeren van Taak A, raadpleeg Kennis B en Kennis C."

Dit verduidelijkt de benodigde kennis voor Taak A. Deze verklaring zelf is een type kennis.

Dit zou een expliciet aandachtsmechanisme genoemd kunnen worden. Deze verklaring kan worden beschouwd als aandachts kennis, die expliciet de kennis articuleert waarop moet worden gefocust bij het uitvoeren van Taak A.

Bovendien kan deze aandachts kennis worden gegenereerd of bijgewerkt door generatieve AI.

Als een taak mislukt door gebrek aan kennis, kan de aandachts kennis worden bijgewerkt om aanvullende kennis op te nemen als referentie voor die taak, gebaseerd op deze overweging.

Conclusie

Het aandachtsmechanisme heeft de mogelijkheden van generatieve AI drastisch verbeterd.

Het was niet slechts een mechanisme dat toevallig goed werkte; integendeel, zoals we hier hebben gezien, lijkt het mechanisme van het dynamisch verfijnen van informatie om naar te verwijzen voor elke situatie de essentie te zijn van geavanceerde intelligentie.

En, net als virtuele intelligentie en expliciete aandachtskennis, is het aandachtsmechanisme ook de sleutel tot het recursief verbeteren van intelligentie over verschillende lagen heen.