Traditioneel machinaal leren werkt binnen een paradigma waarbij computers, bedreven in numerieke berekeningen, leren met behulp van numerieke data en gekwantificeerde parameters verwerven.
Mensen zijn echter niet alleen in staat om via numerieke mechanismen te leren, maar ook via taal. We organiseren en leggen ervaringen vast in woorden, en roepen die woorden vervolgens op, lezen ze en benutten ze.
Grote Taalmodellen (LLM's) kunnen op vergelijkbare wijze kennis in woorden beschrijven en kennis benutten door woorden te lezen.
Door LLM's als natuurlijke taalprocessors in te zetten, wordt machinaal leren op basis van natuurlijke taal mogelijk, in plaats van uitsluitend machinaal leren op basis van numerieke gegevens.
Om deze reden heeft de komst van LLM's een nieuw vakgebied geopend: machinaal leren met natuurlijke taal.
De pre-training van LLM's is een vorm van traditioneel numeriek machinaal leren. Het hier besproken machinaal leren met natuurlijke taal verwijst naar een nieuw type machinaal leren dat gebruikmaakt van pre-getrainde LLM's.
Basismodel voor Machinaal Leren met Natuurlijke Taal
Machinaal leren met natuurlijke taal heeft zowel aspecten die vergelijkbaar zijn met conventioneel numeriek machinaal leren, als aspecten die geheel verschillend zijn.
Om eerst het concept van machinaal leren met natuurlijke taal te begrijpen, beschrijven we een basismodel dat zich richt op de delen die lijken op traditioneel numeriek machinaal leren.
Vanaf nu zal een pre-getraind Groot Taalmodel worden aangeduid als LLM. Merk op dat de parameters van de LLM tijdens dit leerproces helemaal niet veranderen.
Het basismodel is een model voor aangeboren leren, gericht op classificatieproblemen.
Voor de leerdata worden meerdere paren van invoerzinnen en hun classificaties als correcte antwoorden voorbereid.
Stel bijvoorbeeld dat een bedrijf een afdeling Algemene Zaken en een afdeling Administratieve Zaken heeft.
Deze twee afdelingen hebben verschillende rollen. Voor invoerzinnen zoals "De gloeilamp op kantoor is kapot", "Ik ben mijn toegangspas vergeten" of "Ik wil de grote zaal op het hoofdkantoor reserveren", geeft de classificatie aan welke afdeling, Algemene Zaken of Administratieve Zaken, verantwoordelijk is.
Uit deze trainingsdata worden alleen de invoerzinnen geëxtraheerd en aan de LLM gevoerd.
Hier beperken we opzettelijk de reactie via een systeem prompt zoals: "Geef aan of de verantwoordelijke afdeling voor deze aanvraag Algemene Zaken of Administratieve Zaken is. Neem geen andere tekens dan 'Algemene Zaken' of 'Administratieve Zaken' op in uw antwoord."
Aanvankelijk genereert de LLM een antwoord zonder kennis van dit bedrijf. Natuurlijk kan het onjuist zijn, of af en toe toevallig correct.
Voor elke reactie bepaalt een leersysteem of deze correct of incorrect is. Vervolgens wordt de combinatie van de invoerzin, de reactie van de LLM en het beoordelingsresultaat opgeslagen in een kennisbank.
Dit proces wordt herhaald voor ongeveer de helft van de trainingsdata.
Voor de resterende helft van de trainingsdata wordt alle informatie die in de kennisbank is vastgelegd, toegevoegd aan de systeem prompt voor de LLM, en wordt hetzelfde proces uitgevoerd.
Op dit punt bevat de kennisbank informatie over de taakverdeling tussen de afdelingen Algemene Zaken en Administratieve Zaken van dit bedrijf, dus de kans op een correct antwoord zou groter moeten zijn dan bij de eerste helft van de gegevens.
Op deze manier kan een systeem dat een LLM en een kennisbank combineert, de taakverdeling voor de afdelingen Algemene Zaken en Administratieve Zaken van een bedrijf leren.
Het leermechanisme zelf is vergelijkbaar met traditioneel numeriek machinaal leren. Het verschil is dat de leerresultaten worden weerspiegeld in de kennisbank, niet in de parameters van het neurale netwerk binnen de LLM. Bovendien registreert de kennisbank natuurlijke taal, geen numerieke waarden.
Dit is het basismodel voor machinaal leren met natuurlijke taal.
Realiteit van het Basismodel
Degenen die LLM's gebruiken, zullen snel inzien dat dit basismodel aan realisme ontbreekt.
Dit komt omdat het niet nodig is om de moeite te nemen een leersysteem te laten bepalen of oordelen correct of incorrect zijn; men zou simpelweg de trainingsgegevens zelf vanaf het begin in de systeem prompt kunnen invoeren.
Echter, door het basismodel toe te passen en het scenario licht te wijzigen, wordt het realistischer.
Stel bijvoorbeeld dat de afdeling Algemene Zaken en de afdeling Administratieve Zaken gezamenlijk een informatiebalie opzetten, en dat een mens elke binnenkomende aanvraag handmatig toewijst aan de juiste afdeling.
Er wordt een eenvoudig systeem gebouwd om deze aanvragen en hun toewijzingsresultaten toe te voegen aan een kennisbank.
Vervolgens kan de LLM, met behulp van deze kennisbank, het van mensen overnemen en nieuwe aanvragen toewijzen aan de afdelingen.
Als de LLM in dit geval een aanvraag die voor Administratieve Zaken bedoeld is, onterecht toewijst aan Algemene Zaken, zal het personeel van Algemene Zaken de aanvraag opnieuw toewijzen aan Administratieve Zaken. Deze informatie over de herbeoordeling wordt ook vastgelegd in de kennisbank.
Dit eenvoudige mechanisme voor het vastleggen van toewijzingslogboeken, gecombineerd met een LLM en een kennisbank, zou een realistisch, geleid model voor machinaal leren met natuurlijke taal vormen.
Het belangrijkste punt hier, om te herhalen, is dat de parameters van het neurale netwerk binnen de LLM helemaal niet veranderen. Bovendien is het leerresultaat van de feedback een verzameling natuurlijke taalzinnen, geen numerieke waarden.
En dit systeem omvat, zonder twijfel, machinaal leren, niet menselijk leren.
Daarom is dit een nieuwe vorm van machinaal leren: machinaal leren met natuurlijke taal.
Sterke Punten van Machinaal Leren met Natuurlijke Taal
In tegenstelling tot numeriek machinaal leren, biedt leren met natuurlijke taal vele voordelen.
Kort gezegd is de bepalende eigenschap ervan een overweldigend hoge leerefficiëntie.
Numeriek machinaal leren vereist over het algemeen een grote hoeveelheid trainingsdata en iteratief leren. Bovendien is voorverwerking van de trainingsdata ook noodzakelijk.
Een grote hoeveelheid trainingsdata is nodig omdat de te leren kenmerken niet binnen één enkel stuk data zijn vervat, maar verspreid zijn over een enorme hoeveelheid data.
Om deze reden is trainingsdata in de orde van het kwadraat van de dimensionaliteit van de werkelijk gewenste kenmerken vereist.
Iteratief leren is noodzakelijk om ervoor te zorgen dat de parameters van het neurale netwerk op de juiste manier worden geleerd zonder in lokale minima te vervallen, wat vereist dat de parameterwijziging klein blijft bij elke feedback.
Voorverwerking van trainingsdata, zoals normalisatie en randextractie, is nodig om de werkelijk gewenste kenmerken te benadrukken. Deze voorverwerking vraagt ook aanzienlijke inspanning.
Als bijvoorbeeld de taakverdeling tussen de afdeling Administratieve Zaken en de afdeling Algemene Zaken geleerd zou moeten worden met behulp van een traditioneel neuraal netwerk, en de kenmerken 50-dimensionaal waren, dan zouden er minstens ongeveer 1.000 of meer trainingsdata-instanties nodig zijn. Bovendien zouden deze 1.000+ data-instanties mogelijk ongeveer 100 keer iteratief geleerd moeten worden om een adequate leernauwkeurigheid te bereiken.
Verder, als deze set van 1.000 trainingsdata-instanties overbodige woorden, spelfoutvariaties of een verscheidenheid aan woordvolgordes en zinsstructuren bevat, neemt de leerefficiëntie af en kunnen irrelevante kenmerken worden geleerd.
Daarom is voorverwerking onmisbaar om overbodige woorden te verwijderen, terminologie te standaardiseren om variaties te elimineren en woordvolgorde en syntaxis te uniformeren.
In tegenstelling hiermee vereist machinaal leren met natuurlijke taal minder trainingsdata, geen iteratie met dezelfde trainingsdata, en vaak geen voorverwerking.
Als de kenmerken voor de taakverdeling tussen de afdeling Administratieve Zaken en de afdeling Algemene Zaken 50-dimensionaal zijn, dan zijn 50 stukken informatie die overeenkomen met elke dimensie voldoende.
Bovendien betekent dit niet dat 50 afzonderlijke zinnen vereist zijn.
Een enkele zin als "Taken met betrekking tot A, B, C en D worden behandeld door de afdeling Administratieve Zaken" kan vier dimensies aan informatie omvatten.
Verder kan, door taal te abstraheren, informatie uit meerdere dimensies worden geaggregeerd. Een zin als "Onderhoud van gebouwbenodigdheden en faciliteiten is de verantwoordelijkheid van de afdeling Administratieve Zaken" aggregeert een breed scala aan dimensionale informatie, inclusief het vervangen van gloeilampen en storingen van automatische deuren.
Van deze abstractie kan worden gezegd dat het de trainingsdata vermindert door gebruik te maken van de voorgeprogrammeerde kennis en redeneercapaciteiten van de LLM.
En fundamenteel vereist leren met natuurlijke taal geen iteratief leren. Zodra de eerder genoemde zin aan de kennisbank is toegevoegd, is het leren voltooid.
Bovendien is voorverwerking van kennis onnodig. Zelfs als uitleg over de afdeling Administratieve Zaken of Algemene Zaken gemengd is in verschillende teksten, kan deze nog steeds als kennis worden gebruikt.
Of, zoals in het vorige voorbeeld, ruwe data zoals aanvraag- en toewijzingsrecords kunnen onmiddellijk als trainingsdata worden gebruikt zonder voorverwerking.
Zo kan machinaal leren met natuurlijke taal veel efficiënter leren dan numeriek machinaal leren.
Conclusie
Vergeleken met de snelle numerieke rekenmogelijkheden van computers, is de natuurlijke taalverwerkingscapaciteit van grote taalmodellen behoorlijk traag.
Echter, machinaal leren met natuurlijke taal maakt efficiënt leren mogelijk, wat de kloof tussen snelle numerieke berekeningen en trage natuurlijke taalverwerking ruimschoots overtreft.
Bovendien lijken grote taalmodellen, die door numeriek leren een verbazingwekkende vooruitgang hebben geboekt, volgens schaalwetten de grenzen van prestatieverbetering door simpelweg op te schalen te naderen.
In een dergelijk scenario is het zeer aannemelijk dat de focus zal verschuiven naar het verbeteren van capaciteiten door middel van machinaal leren met natuurlijke taal.