Naar inhoud springen
Dit artikel is vanuit het Japans vertaald met behulp van AI
Lees in het Japans
Dit artikel is in het Publiek Domein (CC0). Voel je vrij om het vrij te gebruiken. CC0 1.0 Universal

Machine Learning met Natuurlijke Taal

Traditionele machine learning opereert binnen een paradigma waarin computers, bedreven in numerieke berekeningen, leren van numerieke gegevens en numerieke parameters verwerven.

Aan de andere kant zijn wij in staat om niet alleen via numerieke mechanismen te leren, maar ook via taal. We organiseren en leggen ervaringen vast als woorden, en roepen of lezen die woorden vervolgens om ze te gebruiken.

Grote taalmodellen kunnen op vergelijkbare wijze kennis beschrijven met woorden en woorden gebruiken door ze te lezen.

Door gebruik te maken van grote taalmodellen, die natuurlijke taalverwerkers zijn, wordt machine learning op basis van natuurlijke taal mogelijk, in plaats van alleen machine learning op basis van getallen.

Dientengevolge heeft de komst van grote taalmodellen een nieuw veld geopend: machine learning met natuurlijke taal.

De voorbereidende training van grote taalmodellen is traditionele numerieke machine learning. De hier beschreven machine learning met natuurlijke taal verwijst naar een nieuwe vorm van machine learning die gebruikmaakt van voorgegetrainde grote taalmodellen.

Basismodel van Machine Learning met Natuurlijke Taal

Machine learning met natuurlijke taal bezit aspecten die vergelijkbaar zijn met, en volkomen verschillend zijn van, traditionele numerieke machine learning.

Om eerst een beeld te krijgen van machine learning met natuurlijke taal, zullen we de delen die vergelijkbaar zijn met traditionele numerieke machine learning als een basismodel uitleggen.

Vanaf nu zullen we een voorgegetraind groot taalmodel aanduiden als LLM. Houd er rekening mee dat de parameters van de LLM tijdens dit leerproces helemaal niet veranderen.

Het basismodel is supervised learning, gericht op een classificatieprobleem.

Meerdere paren van invoerzinnen en hun classificaties worden voorbereid als correcte antwoorden voor trainingsdata.

Laten we bijvoorbeeld zeggen dat een bedrijf een afdeling Algemene Zaken en een afdeling Administratieve Zaken heeft.

Deze twee afdelingen hebben een taakverdeling. Voor invoerzinnen zoals "De gloeilamp op kantoor is kapot," "Ik ben mijn toegangspas vergeten," of "Ik wil de grote zaal op het hoofdkantoor reserveren," geeft de classificatie aan of de afdeling Algemene Zaken of de afdeling Administratieve Zaken verantwoordelijk is.

Uit deze trainingsdata worden alleen de invoerzinnen geëxtraheerd en in de LLM gevoerd.

Hier beperken we, als systeemprompt, het antwoord opzettelijk door te stellen: "Geef alstublieft aan welke afdeling, Algemene Zaken of Administratieve Zaken, verantwoordelijk is voor deze vraag. Neem geen andere tekens dan 'Algemene Zaken' of 'Administratieve Zaken' op in uw antwoord."

Aanvankelijk zal de LLM antwoorden genereren zonder enige kennis van dit bedrijf. Natuurlijk zullen sommige antwoorden onjuist zijn, terwijl andere toevallig correct kunnen zijn.

Voor elk antwoord bepaalt het leraarsysteem of het correct of incorrect is. Vervolgens wordt de combinatie van de invoerzin, het antwoord van de LLM en het beoordelingsresultaat opgeslagen in een kennisbank.

Dit proces wordt herhaald voor ongeveer de helft van de trainingsdata.

Voor de resterende helft van de trainingsdata wordt hetzelfde proces uitgevoerd, maar deze keer wordt alle informatie die in de kennisbank is vastgelegd, toegevoegd aan de systeemprompt voor de LLM.

Op dit punt bevat de kennisbank informatie over de taakverdeling tussen de afdelingen Algemene Zaken en Administratieve Zaken van dit bedrijf, dus de kans op correcte antwoorden zou groter moeten zijn dan met de eerste helft van de gegevens.

Op deze manier kan een systeem dat de LLM en de kennisbank combineert, de taakverdeling tussen de afdelingen Algemene Zaken en Administratieve Zaken van dit bedrijf leren.

Het leermechanisme zelf is vergelijkbaar met traditionele numerieke machine learning. Het verschil is dat de leerresultaten worden weerspiegeld in de kennisbank, niet in de parameters van het neurale netwerk binnen de LLM. En, natuurlijke taal, niet getallen, wordt vastgelegd in de kennisbank.

Dit is het basismodel van machine learning met natuurlijke taal.

Realiteit van het Basismodel

Zoals iedereen die gebruikmaakt van LLM's snel zal beseffen, ontbreekt het dit basismodel aan realisme.

Dit komt omdat, in plaats van de moeite te nemen om een leraarsysteem correcte en incorrecte antwoorden te laten bepalen, men de trainingsdata simpelweg vanaf het begin in de systeemprompt zou kunnen invoeren.

Echter, door het basismodel toe te passen en het scenario enigszins te wijzigen, krijgt het realisme.

Stel bijvoorbeeld dat de afdelingen Algemene Zaken en Administratieve Zaken gezamenlijk een informatiebalie opzetten, en dat mensen individueel binnenkomende vragen naar de juiste afdeling triëren.

Er kan een eenvoudig systeem worden gecreëerd om deze vragen en hun routeringsresultaten toe te voegen aan een kennisbank.

Vervolgens kan, met behulp van deze kennisbank, de LLM de taak van het routeren van nieuwe vragen naar de afdelingen van mensen overnemen.

Als de LLM in dit geval een vraag die bestemd is voor Administratieve Zaken incorrect naar Algemene Zaken stuurt, zal de verantwoordelijke persoon bij Algemene Zaken de vraag terugsturen naar Administratieve Zaken. Deze herrouteringsinformatie wordt ook vastgelegd in de kennisbank.

Dit eenvoudige mechanisme voor het vastleggen van routeringslogs, gecombineerd met het LLM- en kennisbanksysteem, zou een realistisch supervised model worden voor machine learning met natuurlijke taal.

Het belangrijkste punt hier is, nogmaals, dat de neurale netwerkparameters binnen de LLM helemaal niet veranderen. En de feedback-leerresultaten zijn geen numerieke waarden, maar eerder verzamelingen van natuurlijke taalzinnen.

Bovendien is dit systeem onmiskenbaar een machineleersysteem, geen menselijk leersysteem.

Daarom is dit een nieuwe vorm van machine learning: machine learning door middel van natuurlijke taal.

Sterke Punten van Machine Learning met Natuurlijke Taal

In tegenstelling tot numerieke machine learning biedt leren met natuurlijke taal vele voordelen.

In één woord is het kenmerkende aspect ervan de overweldigende leerefficiëntie.

Numerieke machine learning vereist over het algemeen een grote hoeveelheid trainingsdata en iteratief leren. Voorverwerking van de trainingsdata is ook noodzakelijk.

Een grote hoeveelheid trainingsdata is nodig omdat de kenmerken die men wil leren niet in één enkel stuk data zijn vervat, maar verspreid zijn over een groot volume aan data.

Om deze reden is trainingsdata in de orde van het kwadraat van de dimensie van de werkelijk gewenste kenmerken vereist.

Iteratief leren is noodzakelijk omdat de verandering in parameters tijdens een enkele feedbacklus klein moet zijn om ervoor te zorgen dat de neurale netwerkparameters op de juiste manier worden geleerd zonder in lokale optima te vervallen.

Voorverwerking van trainingsdata, zoals normalisatie en randextractie, is noodzakelijk om de werkelijk gewenste kenmerken te benadrukken. Deze voorverwerking vereist ook aanzienlijke inspanning.

Als bijvoorbeeld de taakverdeling tussen de administratieve en algemene zakenafdelingen zou moeten worden geleerd met behulp van een traditioneel neuraal netwerk, en de kenmerken 50-dimensionaal waren, zouden ten minste 1000 of meer trainingsdatapunten nodig zijn. Bovendien zouden deze 1000+ datapunten ongeveer 100 keer herhaald moeten worden om een adequate leernauwkeurigheid te bereiken.

Bovendien, als deze 1000 datapunten overbodige woorden, variaties in woordspellingen, of een verscheidenheid aan woordvolgordes en syntaxis bevatten, zal de leerefficiëntie afnemen, of zullen irrelevante kenmerken worden geleerd.

Daarom is voorverwerking om overbodige woorden te verwijderen, woordenschat te standaardiseren om variaties te elimineren, en woordvolgorde en syntaxis te verenigen, onmisbaar.

Aan de andere kant vereist machine learning met natuurlijke taal minder trainingsdata, vereist het geen iteratie met dezelfde trainingsdata, en vereist het in veel gevallen geen voorverwerking.

Als de kenmerken van de taakverdeling tussen de administratieve en algemene zakenafdelingen 50-dimensionaal zijn, zijn 50 stukken informatie die overeenkomen met elke dimensie vaak voldoende.

Bovendien betekent dit niet dat 50 afzonderlijke zinnen nodig zijn.

Een enkele zin zoals "Taken met betrekking tot A, B, C en D worden behandeld door de administratieve afdeling" kan informatie voor vier dimensies bevatten.

Bovendien kan door taal te abstraheren informatie uit meerdere dimensies worden samengevoegd. Een enkele zin zoals "De administratieve afdeling is verantwoordelijk voor bouwverbruiksgoederen en onderhoud van apparatuur" voegt informatie samen uit een breed scala aan dimensies, waaronder het vervangen van gloeilampen en storingen aan automatische deuren.

Deze abstractie maakt gebruik van de voorgegetrainde kennis en redeneervermogens van de LLM, waardoor de benodigde hoeveelheid trainingsdata wordt verminderd.

En, fundamenteel, vereist leren met natuurlijke taal geen iteratief leren. Zodra de eerder genoemde zin aan de kennisbank is toegevoegd, is het leren voltooid.

Verder is voorverwerking van de kennis niet nodig. Zelfs als beschrijvingen van de administratieve of algemene zakenafdelingen gemengd zijn met diverse andere zinnen, kunnen ze nog steeds als kennis worden gebruikt.

Alternatief kunnen ruwe data, zoals logbestanden van vragen en toewijzingen zoals in het vorige voorbeeld, onmiddellijk als trainingsdata worden gebruikt zonder voorverwerking.

Op deze manier kan machine learning met natuurlijke taal veel efficiënter leren dan numerieke machine learning.

Conclusie

Vergeleken met de hoge-snelheids numerieke rekenmogelijkheden van computers, zijn de natuurlijke taalverwerkingsmogelijkheden van grote taalmodellen behoorlijk traag.

Echter, machine learning met natuurlijke taal maakt efficiënter leren mogelijk vergeleken met numerieke machine learning.

Deze efficiëntie weegt ruimschoots op tegen de kloof tussen hoge-snelheids numerieke rekenmogelijkheden en trage natuurlijke taalverwerkingsmogelijkheden.

Bovendien lijken grote taalmodellen, die een verbazingwekkende evolutie hebben doorgemaakt door numeriek leren, volgens schaalwetten een grens te naderen in capaciteitsverbetering door simpelweg op te schalen.

In dat geval is het zeer aannemelijk dat de focus zal verschuiven naar het verbeteren van capaciteiten door middel van machine learning met natuurlijke taal.