பாரம்பரிய எந்திரவியல் கற்றல், எண்கணிதக் கணக்கீட்டில் திறமையான கணினிகள், எண் தரவுகளிலிருந்து கற்றுக்கொண்டு எண் அளவுருக்களைப் பெறும் ஒரு முன்மாதிரியில் செயல்படுகிறது.
மறுபுறம், நாம் எண்ணியல் வழிமுறைகள் மூலமாகவும் மட்டுமல்லாமல், மொழி மூலமாகவும் கற்றுக்கொள்ள முடியும். நாம் அனுபவங்களைச் சொற்களாக ஒழுங்கமைத்து பதிவுசெய்து, பின்னர் அந்தச் சொற்களை நினைவுபடுத்துவதன் மூலமோ அல்லது படிப்பதன் மூலமோ அவற்றைப் பயன்படுத்துகிறோம்.
பெரிய மொழி மாதிரிகளும் அதேபோல அறிவைச் சொற்களைப் பயன்படுத்தி விவரிக்கலாம் மற்றும் சொற்களைப் படிப்பதன் மூலம் பயன்படுத்தலாம்.
இயற்கை மொழிச் செயலிகளான பெரிய மொழி மாதிரிகளைப் பயன்படுத்துவதன் மூலம், எண் அடிப்படையிலான எந்திரவியல் கற்றலுக்குப் பதிலாக, இயற்கை மொழி அடிப்படையிலான எந்திரவியல் கற்றல் சாத்தியமாகிறது.
இதன் விளைவாக, பெரிய மொழி மாதிரிகளின் வருகை ஒரு புதிய துறையைத் திறந்துவிட்டுள்ளது: இயற்கை மொழி எந்திரவியல் கற்றல்.
பெரிய மொழி மாதிரிகளின் முன்-பயிற்சியானது பாரம்பரிய எண்ணியல் எந்திரவியல் கற்றலாகும். இங்கு விவரிக்கப்பட்டுள்ள இயற்கை மொழி எந்திரவியல் கற்றல், முன்-பயிற்சி பெற்ற பெரிய மொழி மாதிரிகளைப் பயன்படுத்தும் ஒரு புதிய வகை எந்திரவியல் கற்றலைக் குறிக்கிறது.
இயற்கை மொழி எந்திரவியல் கற்றலின் அடிப்படை மாதிரி
இயற்கை மொழி எந்திரவியல் கற்றல், பாரம்பரிய எண் எந்திரவியல் கற்றலைப் போன்ற மற்றும் முற்றிலும் வேறுபட்ட அம்சங்களைக் கொண்டுள்ளது.
முதலில், இயற்கை மொழி எந்திரவியல் கற்றலின் ஒரு தெளிவான படத்தை புரிந்துகொள்ள, பாரம்பரிய எண் எந்திரவியல் கற்றலைப் போன்ற பகுதிகளை ஒரு அடிப்படை மாதிரியாக விளக்குவோம்.
இனிவரும் பகுதிகளில், முன்-பயிற்சி பெற்ற பெரிய மொழி மாதிரியை LLM என்று குறிப்பிடுவோம். இந்தக் கற்றல் செயல்பாட்டின் போது LLM இன் அளவுருக்கள் எதற்கும் மாறாது என்பதை கவனத்தில் கொள்ளவும்.
அடிப்படை மாதிரி என்பது வகைப்பாட்டுச் சிக்கலை இலக்காகக் கொண்ட மேற்பார்வையிடப்பட்ட கற்றலாகும்.
பயிற்சித் தரவுகளுக்கான சரியான பதில்களாக, உள்ளீட்டு வாக்கியங்களின் பல இணைகளும் அவற்றின் வகைப்பாடுகளும் தயாரிக்கப்படுகின்றன.
உதாரணமாக, ஒரு நிறுவனத்தில் பொது விவகாரத் துறை (General Affairs Department) மற்றும் நிர்வாக விவகாரத் துறை (Administrative Affairs Department) இருப்பதாகக் கருதுவோம்.
இந்த இரண்டு துறைகளுக்கும் பணிகளின் பிரிவு உள்ளது. "அலுவலக மின்விளக்கு அணைந்துள்ளது," "நான் எனது அணுகல் அட்டையை மறந்துவிட்டேன்," அல்லது "தலைமையகத்தில் உள்ள பிரதான மண்டபத்தை நான் பதிவு செய்ய விரும்புகிறேன்" போன்ற உள்ளீட்டு வாக்கியங்களுக்கு, பொது விவகாரத் துறையா அல்லது நிர்வாக விவகாரத் துறையா பொறுப்பு என்பதை வகைப்பாடு குறிக்கிறது.
இந்த பயிற்சித் தரவிலிருந்து, உள்ளீட்டு வாக்கியங்கள் மட்டும் பிரித்தெடுக்கப்பட்டு LLM க்கு அளிக்கப்படுகின்றன.
இங்கு, ஒரு சிஸ்டம் ப்ராம்ப்டாக, "இந்த விசாரணைக்கு எந்தத் துறை, பொது விவகாரத் துறையா அல்லது நிர்வாக விவகாரத் துறையா பொறுப்பு என்பதைப் பதிலளிக்கவும். உங்கள் பதிலில் 'பொது விவகாரத் துறை' அல்லது 'நிர்வாக விவகாரத் துறை' தவிர வேறு எந்த எழுத்துக்களையும் சேர்க்க வேண்டாம்" என்று கூறி, பதிலைத் திட்டமிட்டு கட்டுப்படுத்துகிறோம்.
ஆரம்பத்தில், LLM இந்த நிறுவனத்தைப் பற்றிய எந்த அறிவும் இல்லாமல் பதில்களை உருவாக்கும். இயல்பாகவே, சில பதில்கள் தவறாக இருக்கும், மற்றவை தற்செயலாகச் சரியாக இருக்கலாம்.
ஒவ்வொரு பதிலுக்கும், ஆசிரியர் அமைப்பு அது சரியா தவறா என்பதைத் தீர்மானிக்கிறது. பின்னர், உள்ளீட்டு வாக்கியம், LLM இன் பதில் மற்றும் தீர்ப்பு முடிவு ஆகியவற்றின் கலவையானது ஒரு அறிவுத் தளத்தில் சேமிக்கப்படுகிறது.
இந்தச் செயல்முறை பயிற்சித் தரவின் பாதி அளவு வரை மீண்டும் செய்யப்படுகிறது.
மீதமுள்ள பயிற்சித் தரவின் பாதிக்கு, அதே செயல்முறை செய்யப்படுகிறது, ஆனால் இந்த முறை அறிவுத் தளத்தில் பதிவுசெய்யப்பட்ட அனைத்து தகவல்களும் LLM க்கான சிஸ்டம் ப்ராம்ப்டில் சேர்க்கப்படுகின்றன.
இந்த கட்டத்தில், அறிவுத் தளத்தில் இந்த நிறுவனத்தின் பொது விவகாரத் துறை மற்றும் நிர்வாக விவகாரத் துறைகளுக்கு இடையிலான பணிகளின் பிரிவு பற்றிய தகவல்கள் இருப்பதால், முதல் பாதி தரவை விட சரியான பதில்களைப் பெறுவதற்கான வாய்ப்பு அதிகமாக இருக்க வேண்டும்.
இந்த வழியில், LLM மற்றும் அறிவுத் தளத்தை இணைக்கும் ஒரு அமைப்பு, இந்த நிறுவனத்தின் பொது விவகாரத் துறை மற்றும் நிர்வாக விவகாரத் துறைகளுக்கு இடையிலான பணிகளின் பிரிவைக் கற்றுக்கொள்ள முடியும்.
கற்றல் பொறிமுறையே பாரம்பரிய எண் எந்திரவியல் கற்றலைப் போன்றது. வேறுபாடு என்னவென்றால், கற்றல் முடிவுகள் LLM இல் உள்ள நரம்பியல் வலையமைப்பின் அளவுருக்களில் அல்லாமல், அறிவுத் தளத்தில் பிரதிபலிக்கின்றன. மேலும், அறிவுத் தளத்தில் எண்கள் அல்ல, இயற்கை மொழி பதிவு செய்யப்படுகிறது.
இது இயற்கை மொழி எந்திரவியல் கற்றலின் அடிப்படை மாதிரி ஆகும்.
அடிப்படை மாதிரியின் யதார்த்தம்
LLM-களைப் பயன்படுத்துபவர்கள் விரைவில் உணர்வது போல், இந்த அடிப்படை மாதிரிக்கு யதார்த்தம் இல்லை.
ஏனென்றால், ஒரு ஆசிரியர் அமைப்பு சரியான மற்றும் தவறான பதில்களைத் தீர்மானிக்கும் சிரமத்திற்கு ஆளாகாமல், ஆரம்பத்திலிருந்தே பயிற்சித் தரவையே சிஸ்டம் ப்ராம்ப்டில் உள்ளிடலாம்.
இருப்பினும், அடிப்படை மாதிரியைப் பயன்படுத்துவதன் மூலமும், காட்சியை சற்றே மாற்றுவதன் மூலமும், அது யதார்த்தத்தைப் பெறுகிறது.
உதாரணமாக, பொது விவகார மற்றும் நிர்வாக விவகாரத் துறைகள் இணைந்து ஒரு விசாரணைக் கூடத்தை அமைத்து, மனிதர்கள் தனித்தனியாக வரும் விசாரணைகளை பொருத்தமான துறைக்கு வகைப்படுத்துகிறார்கள் என்று வைத்துக்கொள்வோம்.
இந்த விசாரணைகளையும் அவற்றின் வழித்தட முடிவுகளையும் ஒரு அறிவுத் தளத்தில் சேர்க்க ஒரு எளிய அமைப்பு உருவாக்கப்படலாம்.
பின்னர், இந்த அறிவுத் தளத்தைப் பயன்படுத்தி, LLM ஆனது புதிய விசாரணைகளைத் துறைகளுக்கு வழிநடத்தும் பணியை மனிதர்களிடமிருந்து எடுத்துக் கொள்ளும்.
இந்தச் சந்தர்ப்பத்தில், LLM நிர்வாக விவகாரங்களுக்கான ஒரு விசாரணையைத் தவறுதலாக பொது விவகாரங்களுக்கு வழிநடத்தினால், பொது விவகாரங்களின் பொறுப்பாளர் அந்த விசாரணையை மீண்டும் நிர்வாக விவகாரங்களுக்கு வழிநடத்துவார். இந்த மறு-வழித்தட தகவல் அறிவுத் தளத்திலும் பதிவு செய்யப்படும்.
வழித்தடப் பதிவுகளைப் பதிவுசெய்வதற்கான இந்த எளிய பொறிமுறை, LLM மற்றும் அறிவுத் தள அமைப்புடன் இணைந்து, இயற்கை மொழி எந்திரவியல் கற்றலுக்கான ஒரு யதார்த்தமான மேற்பார்வையிடப்பட்ட மாதிரியாக மாறும்.
இங்குள்ள முக்கிய குறிப்பு என்னவென்றால், மீண்டும், LLM இன் உள்ளேயுள்ள நரம்பியல் வலைப்பின்னல் அளவுருக்கள் சிறிதும் மாறாது. மேலும் பின்னூட்டக் கற்றல் முடிவுகள் எண் மதிப்புகள் அல்ல, மாறாக இயற்கை மொழி வாக்கியங்களின் தொகுப்புகளாகும்.
மேலும், இந்த அமைப்பு ஒரு எந்திரவியல் கற்றல் அமைப்பு, மனித கற்றல் அமைப்பு அல்ல என்பது வெளிப்படையானது.
எனவே, இது ஒரு புதிய வகையான எந்திரவியல் கற்றல்: இயற்கை மொழி மூலம் எந்திரவியல் கற்றல்.
இயற்கை மொழி எந்திரவியல் கற்றலின் பலம்
எண் எந்திரவியல் கற்றலைப் போலன்றி, இயற்கை மொழி கற்றல் பல நன்மைகளை வழங்குகிறது.
ஒரு வார்த்தையில் சொன்னால், அதன் சிறப்பியல்பு அதன் மகத்தான கற்றல் திறன் ஆகும்.
எண் எந்திரவியல் கற்றலுக்கு பொதுவாக அதிக அளவு பயிற்சித் தரவுகளும், திரும்பத் திரும்ப கற்றலும் தேவைப்படும். பயிற்சித் தரவுகளை முன்-செயலாக்குவதும் அவசியம்.
அதிக அளவு பயிற்சித் தரவுகள் தேவைப்படுவதற்கு காரணம், கற்றுக்கொள்ள விரும்பும் அம்சங்கள் ஒரு தரவில் மட்டும் இல்லாமல், அதிக அளவு தரவுகளில் பரவி இருப்பதால் ஆகும்.
இந்த காரணத்திற்காக, உண்மையாக விரும்பப்படும் அம்சங்களின் பரிமாணத்தின் வர்க்க வரிசையிலான பயிற்சித் தரவுகள் தேவைப்படுகின்றன.
மீண்டும் மீண்டும் கற்றல் தேவைப்படுவதற்கு காரணம், உள்ளூர் உகமங்களில் (local optima) சிக்கிக்கொள்ளாமல் நரம்பியல் வலைப்பின்னல் அளவுருக்கள் சரியான முறையில் கற்றுக்கொள்ளப்படுவதை உறுதிசெய்ய, ஒற்றை பின்னூட்ட சுழற்சியின் போது அளவுருக்களில் ஏற்படும் மாற்றம் சிறியதாக இருக்க வேண்டும்.
சாதாரணமயமாக்கல் மற்றும் விளிம்பு பிரித்தெடுத்தல் போன்ற பயிற்சித் தரவுகளின் முன்-செயலாக்கம், உண்மையாக விரும்பப்படும் அம்சங்களை முன்னிலைப்படுத்த அவசியம். இந்த முன்-செயலாக்கத்திற்கும் குறிப்பிடத்தக்க முயற்சி தேவைப்படுகிறது.
உதாரணமாக, நிர்வாக மற்றும் பொது விவகாரத் துறைகளுக்கு இடையிலான பணிகளின் பிரிவை ஒரு பாரம்பரிய நரம்பியல் வலைப்பின்னல் பயன்படுத்தி கற்றுக்கொள்ள வேண்டும் என்றால், அதன் அம்சங்கள் 50 பரிமாணங்களாக இருந்தால், குறைந்தது 1000 அல்லது அதற்கு மேற்பட்ட பயிற்சித் தரவுப் புள்ளிகள் தேவைப்படும். கூடுதலாக, இந்த 1000+ தரவுப் புள்ளிகள் சுமார் 100 முறை மீண்டும் மீண்டும் செய்யப்பட வேண்டியிருக்கலாம், போதுமான கற்றல் துல்லியத்தை அடைய.
மேலும், இந்த 1000 தரவுப் புள்ளிகளில் தேவையற்ற சொற்கள், சொல் எழுத்துப்பிழை மாறுபாடுகள் அல்லது பல்வேறு சொல் வரிசைகள் மற்றும் தொடரியல் இருந்தால், கற்றல் திறன் குறையும், அல்லது பொருத்தமற்ற அம்சங்கள் கற்றுக்கொள்ளப்படும்.
எனவே, தேவையற்ற சொற்களை நீக்குவதற்கும், மாறுபாடுகளை நீக்குவதற்கு சொற்களஞ்சியத்தை தரப்படுத்துவதற்கும், சொல் வரிசை மற்றும் தொடரியலை ஒன்றிணைப்பதற்கும் முன்-செயலாக்கம் அத்தியாவசியமானது.
மறுபுறம், இயற்கை மொழி எந்திரவியல் கற்றலுக்கு குறைந்த பயிற்சித் தரவுகளே தேவைப்படும், அதே பயிற்சித் தரவுடன் திரும்பத் திரும்ப கற்றல் தேவையில்லை, மேலும் பல சந்தர்ப்பங்களில், முன்-செயலாக்கம் தேவையில்லை.
நிர்வாக மற்றும் பொது விவகாரத் துறைகளுக்கு இடையிலான பணிகளின் பிரிவின் அம்சங்கள் 50 பரிமாணங்களாக இருந்தால், ஒவ்வொரு பரிமாணத்திற்கும் ஒத்த 50 தகவல்கள் பெரும்பாலும் போதுமானவை.
மேலும், இது 50 தனித்தனி வாக்கியங்கள் தேவைப்படும் என்று அர்த்தமல்ல.
"A, B, C மற்றும் D தொடர்பான கடமைகள் நிர்வாகத் துறையால் கையாளப்படுகின்றன" போன்ற ஒற்றை வாக்கியம் நான்கு பரிமாணங்களுக்கான தகவலை உள்ளடக்கும்.
மேலும், மொழியை சுருக்கமாக்குவதன் மூலம், பல பரிமாணங்களிலிருந்தும் தகவல்களை ஒருங்கிணைக்க முடியும். "கட்டிட நுகர்பொருட்கள் மற்றும் உபகரணப் பராமரிப்புக்கு நிர்வாகத் துறை பொறுப்பு" போன்ற ஒற்றை வாக்கியம், மின்விளக்கு மாற்றுதல் மற்றும் தானியங்கி கதவு கோளாறுகள் உள்ளிட்ட பரந்த அளவிலான பரிமாணங்களிலிருந்து தகவல்களை ஒருங்கிணைக்கிறது.
இந்த சுருக்கமானது LLM இன் முன்-பயிற்சி பெற்ற அறிவு மற்றும் பகுத்தறிவு திறன்களைப் பயன்படுத்துகிறது, இதன் மூலம் தேவைப்படும் பயிற்சித் தரவின் அளவைக் குறைக்கிறது.
மேலும், அடிப்படையில், இயற்கை மொழி கற்றலுக்கு திரும்பத் திரும்ப கற்றல் தேவையில்லை. மேற்கூறிய வாக்கியம் அறிவுத் தளத்தில் சேர்க்கப்பட்டவுடன், கற்றல் நிறைவடைகிறது.
மேலும், அறிவை முன்-செயலாக்கம் செய்வது அவசியமில்லை. நிர்வாக அல்லது பொது விவகாரத் துறைகளின் விளக்கங்கள் பல்வேறு பிற வாக்கியங்களுடன் கலந்து இருந்தாலும், அவை அறிவாகப் பயன்படுத்தப்படலாம்.
மாற்றாக, முந்தைய உதாரணத்தில் உள்ள விசாரணைகள் மற்றும் ஒதுக்கீடுகளின் பதிவுகள் போன்ற மூலத் தரவுகளை, முன்-செயலாக்கம் இல்லாமல் உடனடியாக பயிற்சித் தரவுகளாகப் பயன்படுத்தலாம்.
இந்த வழியில், இயற்கை மொழி எந்திரவியல் கற்றல், எண் எந்திரவியல் கற்றலை விட மிகவும் திறமையாக கற்றுக்கொள்ள முடியும்.
முடிவுரை
கணினிகளின் அதிவேக எண் கணக்கீட்டுத் திறன்களுடன் ஒப்பிடுகையில், பெரிய மொழி மாதிரிகளின் இயற்கை மொழி செயலாக்கத் திறன்கள் மிகவும் மெதுவாக உள்ளன.
இருப்பினும், எண் எந்திரவியல் கற்றலுடன் ஒப்பிடுகையில், இயற்கை மொழி எந்திரவியல் கற்றல் மிகவும் திறமையான கற்றலை அனுமதிக்கிறது.
இந்தத் திறமையானது அதிவேக எண் கணக்கீட்டுத் திறன்களுக்கும், மெதுவான இயற்கை மொழி செயலாக்கத் திறன்களுக்கும் இடையிலான இடைவெளியை விட மிக அதிகம்.
மேலும், எண் கற்றல் மூலம் வியக்கத்தக்க பரிணாம வளர்ச்சி அடைந்த பெரிய மொழி மாதிரிகள், அளவுரு விதிகள் (scaling laws) படி, எளிய அளவீட்டு அதிகரிப்பு (simple scaling up) மூலம் திறனை மேம்படுத்துவதில் ஒரு வரம்பை அணுகுவதாகத் தெரிகிறது.
அப்படியானால், இயற்கை மொழி எந்திரவியல் கற்றல் மூலம் திறன்களை மேம்படுத்துவதில் கவனம் மாற அதிக வாய்ப்புள்ளது.