पारंपरिक मशीन लर्निंग एक प्रतिमान के भीतर संचालित होती है जहाँ कंप्यूटर, जो संख्यात्मक गणना में निपुण होते हैं, संख्यात्मक डेटा से सीखते हैं और संख्यात्मक पैरामीटर प्राप्त करते हैं।
दूसरी ओर, हम केवल संख्यात्मक तंत्रों के माध्यम से ही नहीं, बल्कि भाषा के माध्यम से भी सीखने में सक्षम हैं। हम अनुभवों को शब्दों के रूप में व्यवस्थित और रिकॉर्ड करते हैं, फिर उनका उपयोग करने के लिए उन शब्दों को याद करते हैं या पढ़ते हैं।
बड़े भाषा मॉडल भी इसी तरह शब्दों का उपयोग करके ज्ञान का वर्णन कर सकते हैं और उन्हें पढ़कर शब्दों का उपयोग कर सकते हैं।
बड़े भाषा मॉडल, जो प्राकृतिक भाषा प्रोसेसर हैं, का लाभ उठाकर, केवल संख्यात्मक-आधारित मशीन लर्निंग के बजाय, प्राकृतिक भाषा-आधारित मशीन लर्निंग संभव हो जाती है।
परिणामस्वरूप, बड़े भाषा मॉडल के आगमन ने एक नया क्षेत्र खोल दिया है: प्राकृतिक भाषा मशीन लर्निंग।
बड़े भाषा मॉडल का प्री-ट्रेनिंग पारंपरिक संख्यात्मक मशीन लर्निंग है। यहाँ वर्णित प्राकृतिक भाषा मशीन लर्निंग एक नए प्रकार की मशीन लर्निंग को संदर्भित करती है जो प्री-ट्रेन्ड बड़े भाषा मॉडल का उपयोग करती है।
प्राकृतिक भाषा मशीन लर्निंग का मूल मॉडल
प्राकृतिक भाषा मशीन लर्निंग में ऐसे पहलू हैं जो पारंपरिक संख्यात्मक मशीन लर्निंग के समान हैं, और कुछ पूरी तरह से भिन्न भी हैं।
सबसे पहले, प्राकृतिक भाषा मशीन लर्निंग की एक छवि को समझने के लिए, हम उन हिस्सों की व्याख्या करेंगे जो पारंपरिक संख्यात्मक मशीन लर्निंग के समान हैं, एक मूल मॉडल के रूप में।
इस बिंदु से, हम एक पूर्व-प्रशिक्षित बड़े भाषा मॉडल को एलएलएम (LLM) के रूप में संदर्भित करेंगे। कृपया ध्यान दें कि इस सीखने की प्रक्रिया के दौरान एलएलएम के पैरामीटर बिल्कुल भी नहीं बदलते हैं।
मूल मॉडल पर्यवेक्षित शिक्षण है, जो एक वर्गीकरण समस्या को लक्षित करता है।
प्रशिक्षण डेटा के लिए सही उत्तरों के रूप में इनपुट वाक्यों और उनके वर्गीकरण के कई जोड़े तैयार किए जाते हैं।
उदाहरण के लिए, मान लीजिए कि किसी कंपनी में एक सामान्य प्रशासन विभाग (General Affairs Department) और एक प्रशासनिक कार्य विभाग (Administrative Affairs Department) है।
इन दोनों विभागों के कार्यों का विभाजन होता है। "कार्यालय का बल्ब खराब हो गया है," "मैं अपना एक्सेस कार्ड भूल गया," या "मैं मुख्यालय में मुख्य हॉल आरक्षित करना चाहता हूँ," जैसे इनपुट वाक्यों के लिए, वर्गीकरण यह इंगित करता है कि सामान्य प्रशासन विभाग या प्रशासनिक कार्य विभाग जिम्मेदार है।
इस प्रशिक्षण डेटा से, केवल इनपुट वाक्य निकाले जाते हैं और एलएलएम में फीड किए जाते हैं।
यहाँ, एक सिस्टम प्रॉम्प्ट के रूप में, हम जानबूझकर उत्तर को प्रतिबंधित करते हुए कहते हैं, "कृपया बताएं कि इस पूछताछ के लिए कौन सा विभाग, सामान्य प्रशासन या प्रशासनिक कार्य, जिम्मेदार है। अपने उत्तर में 'सामान्य प्रशासन' या 'प्रशासनिक कार्य' के अलावा कोई अन्य वर्ण शामिल न करें।"
शुरुआत में, एलएलएम इस कंपनी के किसी भी ज्ञान के बिना उत्तर उत्पन्न करेगा। स्वाभाविक रूप से, कुछ उत्तर गलत होंगे, जबकि अन्य संयोग से सही हो सकते हैं।
प्रत्येक उत्तर के लिए, शिक्षक प्रणाली यह निर्धारित करती है कि यह सही है या गलत। फिर, इनपुट वाक्य, एलएलएम का उत्तर, और निर्णय परिणाम का संयोजन एक ज्ञानकोश (knowledge base) में सहेजा जाता है।
यह प्रक्रिया प्रशिक्षण डेटा के लगभग आधे हिस्से के लिए दोहराई जाती है।
प्रशिक्षण डेटा के शेष आधे के लिए, वही प्रक्रिया की जाती है, लेकिन इस बार ज्ञानकोश में दर्ज की गई सभी जानकारी एलएलएम के लिए सिस्टम प्रॉम्प्ट में जोड़ दी जाती है।
इस बिंदु पर, ज्ञानकोश में इस कंपनी के सामान्य प्रशासन और प्रशासनिक कार्य विभागों के बीच कर्तव्यों के विभाजन के बारे में जानकारी होती है, इसलिए सही उत्तर प्राप्त करने की संभावना डेटा के पहले आधे की तुलना में अधिक होनी चाहिए।
इस तरह, एलएलएम और ज्ञानकोश के संयोजन वाली एक प्रणाली इस कंपनी के सामान्य प्रशासन और प्रशासनिक कार्य विभागों के बीच कर्तव्यों के विभाजन को सीख सकती है।
सीखने की क्रियाविधि स्वयं पारंपरिक संख्यात्मक मशीन लर्निंग के समान है। अंतर यह है कि सीखने के परिणाम एलएलएम के भीतर न्यूरल नेटवर्क के मापदंडों में नहीं, बल्कि ज्ञानकोश में परिलक्षित होते हैं। और, ज्ञानकोश में संख्याएँ नहीं, बल्कि प्राकृतिक भाषा दर्ज की जाती है।
यह प्राकृतिक भाषा मशीन लर्निंग का मूल मॉडल है।
मूल मॉडल की वास्तविकता
जैसा कि एलएलएम (LLMs) का लाभ उठाने वाला कोई भी व्यक्ति तुरंत महसूस करेगा, इस मूल मॉडल में यथार्थवाद की कमी है।
ऐसा इसलिए है क्योंकि, सही और गलत उत्तरों को निर्धारित करने के लिए एक शिक्षक प्रणाली रखने की परेशानी से गुजरने के बजाय, कोई भी शुरू से ही प्रशिक्षण डेटा को सीधे सिस्टम प्रॉम्प्ट में इनपुट कर सकता है।
हालांकि, मूल मॉडल को लागू करके और परिदृश्य को थोड़ा बदलकर, यह यथार्थवाद प्राप्त करता है।
उदाहरण के लिए, मान लीजिए कि सामान्य प्रशासन और प्रशासनिक कार्य विभागों ने मिलकर एक पूछताछ डेस्क स्थापित किया है, और मनुष्य व्यक्तिगत रूप से आने वाली पूछताछ को उचित विभाग में वर्गीकृत करते हैं।
इन पूछताछ और उनके रूटिंग परिणामों को एक ज्ञानकोश (knowledge base) में जोड़ने के लिए एक सरल प्रणाली बनाई जा सकती है।
फिर, इस ज्ञानकोश का उपयोग करके, एलएलएम मनुष्यों से नए पूछताछ को विभागों तक पहुंचाने का कार्य संभाल सकता है।
इस मामले में, यदि एलएलएम गलती से प्रशासनिक कार्य के लिए एक पूछताछ को सामान्य प्रशासन में भेजता है, तो सामान्य प्रशासन का प्रभारी व्यक्ति पूछताछ को वापस प्रशासनिक कार्य में भेजेगा। यह पुन: रूटिंग जानकारी भी ज्ञानकोश में दर्ज की जाती है।
रूटिंग लॉग को रिकॉर्ड करने के लिए यह सरल तंत्र, एलएलएम और ज्ञानकोश प्रणाली के साथ मिलकर, प्राकृतिक भाषा मशीन लर्निंग के लिए एक यथार्थवादी पर्यवेक्षित मॉडल बन जाएगा।
यहां मुख्य बात, फिर से, यह है कि एलएलएम के भीतर तंत्रिका नेटवर्क पैरामीटर बिल्कुल भी नहीं बदलते हैं। और प्रतिक्रिया सीखने के परिणाम संख्यात्मक मान नहीं हैं, बल्कि प्राकृतिक भाषा वाक्यों का संग्रह हैं।
इसके अलावा, यह प्रणाली निस्संदेह एक मशीन लर्निंग प्रणाली है, न कि मानव सीखने की प्रणाली।
इसलिए, यह मशीन लर्निंग का एक नया रूप है: प्राकृतिक भाषा के माध्यम से मशीन लर्निंग।
प्राकृतिक भाषा मशीन लर्निंग की ताकत
संख्यात्मक मशीन लर्निंग के विपरीत, प्राकृतिक भाषा सीखने के कई फायदे हैं।
एक शब्द में, इसकी मुख्य विशेषता इसकी जबरदस्त सीखने की दक्षता है।
संख्यात्मक मशीन लर्निंग में आम तौर पर बड़ी मात्रा में प्रशिक्षण डेटा और पुनरावृत्ति सीखने की आवश्यकता होती है। प्रशिक्षण डेटा का पूर्व-प्रसंस्करण भी आवश्यक है।
बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता इसलिए होती है क्योंकि जो विशेषताएँ कोई सीखना चाहता है वे डेटा के एक ही टुकड़े में समाहित नहीं होती हैं, बल्कि बड़ी मात्रा में डेटा में वितरित होती हैं।
इस कारण से, वास्तव में वांछित विशेषताओं के आयाम के वर्ग के क्रम में प्रशिक्षण डेटा की आवश्यकता होती है।
पुनरावृत्ति सीखने की आवश्यकता इसलिए होती है क्योंकि न्यूरल नेटवर्क पैरामीटर स्थानीय ऑप्टिमा में फंसे बिना उचित रूप से सीखे जाते हैं यह सुनिश्चित करने के लिए एक एकल प्रतिक्रिया लूप के दौरान मापदंडों में परिवर्तन छोटा होना चाहिए।
प्रशिक्षण डेटा का पूर्व-प्रसंस्करण, जैसे सामान्यीकरण और एज एक्सट्रैक्शन, वास्तव में वांछित विशेषताओं को उजागर करने के लिए आवश्यक है। इस पूर्व-प्रसंस्करण में भी काफी प्रयास की आवश्यकता होती है।
उदाहरण के लिए, यदि प्रशासनिक और सामान्य मामलों के विभागों के बीच कर्तव्यों का विभाजन एक पारंपरिक न्यूरल नेटवर्क का उपयोग करके सीखा जाना था, और इसकी विशेषताएँ 50-आयामी थीं, तो कम से कम 1000 या अधिक प्रशिक्षण डेटा बिंदुओं की आवश्यकता होगी। इसके अतिरिक्त, इन 1000+ डेटा बिंदुओं को पर्याप्त सीखने की सटीकता प्राप्त करने के लिए लगभग 100 बार पुनरावृति करने की आवश्यकता हो सकती है।
इसके अलावा, यदि इन 1000 डेटा बिंदुओं में बाहरी शब्द, शब्द वर्तनी में भिन्नता, या विभिन्न प्रकार के शब्द क्रम और सिंटेक्स शामिल हैं, तो सीखने की दक्षता कम हो जाएगी, या अप्रासंगिक विशेषताएँ सीखी जाएंगी।
इसलिए, बाहरी शब्दों को हटाने, भिन्नताओं को खत्म करने के लिए शब्दावली को मानकीकृत करने, और शब्द क्रम और सिंटेक्स को एकीकृत करने के लिए पूर्व-प्रसंस्करण अनिवार्य है।
दूसरी ओर, प्राकृतिक भाषा मशीन लर्निंग में कम प्रशिक्षण डेटा की आवश्यकता होती है, उसी प्रशिक्षण डेटा के साथ पुनरावृति की आवश्यकता नहीं होती है, और कई मामलों में, पूर्व-प्रसंस्करण की आवश्यकता नहीं होती है।
यदि प्रशासनिक और सामान्य मामलों के विभागों के बीच कर्तव्यों के विभाजन की विशेषताएँ 50-आयामी हैं, तो प्रत्येक आयाम के अनुरूप 50 जानकारी के टुकड़े अक्सर पर्याप्त होते हैं।
इसके अलावा, इसका मतलब यह नहीं है कि 50 अलग-अलग वाक्यों की आवश्यकता है।
"ए, बी, सी, और डी से संबंधित कर्तव्य प्रशासनिक विभाग द्वारा संभाले जाते हैं" जैसा एक वाक्य चार आयामों के लिए जानकारी शामिल कर सकता है।
इसके अतिरिक्त, भाषा को अमूर्त करके, कई आयामों से जानकारी एकत्र की जा सकती है। "भवन के उपभोग्य वस्तु और उपकरण रखरखाव प्रशासनिक विभाग की जिम्मेदारी है" जैसा एक वाक्य प्रकाश बल्ब बदलने और स्वचालित दरवाजे की खराबी सहित विभिन्न प्रकार के आयामों से जानकारी एकत्र करता है।
यह अमूर्तिकरण एलएलएम के पूर्व-प्रशिक्षित ज्ञान और तर्क क्षमताओं का लाभ उठाता है, जिससे आवश्यक प्रशिक्षण डेटा की मात्रा कम हो जाती है।
और, मूल रूप से, प्राकृतिक भाषा सीखने के लिए पुनरावृत्ति सीखने की आवश्यकता नहीं होती है। एक बार जब उपर्युक्त वाक्य ज्ञानकोश में जोड़ दिया जाता है, तो सीखना पूरा हो जाता है।
इसके अलावा, ज्ञान के पूर्व-प्रसंस्करण की आवश्यकता नहीं है। भले ही प्रशासनिक या सामान्य मामलों के विभागों के विवरण विभिन्न अन्य वाक्यों के साथ मिश्रित हों, फिर भी उन्हें ज्ञान के रूप में उपयोग किया जा सकता है।
वैकल्पिक रूप से, कच्चा डेटा, जैसे कि पिछले उदाहरण में पूछताछ और असाइनमेंट के लॉग, को बिना पूर्व-प्रसंस्करण के तुरंत प्रशिक्षण डेटा के रूप में उपयोग किया जा सकता है।
इस तरह, प्राकृतिक भाषा मशीन लर्निंग संख्यात्मक मशीन लर्निंग की तुलना में कहीं अधिक कुशलता से सीख सकती है।
निष्कर्ष
कंप्यूटर की उच्च गति वाली संख्यात्मक गणना क्षमताओं की तुलना में, बड़े भाषा मॉडल की प्राकृतिक भाषा प्रसंस्करण क्षमताएँ काफी धीमी हैं।
हालांकि, संख्यात्मक मशीन लर्निंग की तुलना में प्राकृतिक भाषा मशीन लर्निंग अधिक कुशल सीखने की अनुमति देती है।
यह दक्षता उच्च गति वाली संख्यात्मक गणना क्षमताओं और धीमी प्राकृतिक भाषा प्रसंस्करण क्षमताओं के बीच के अंतर से कहीं अधिक है।
इसके अतिरिक्त, बड़े भाषा मॉडल, जिन्होंने संख्यात्मक सीखने के माध्यम से आश्चर्यजनक विकास किया है, स्केलिंग नियमों के अनुसार, साधारण स्केलिंग अप के माध्यम से क्षमता सुधार में एक सीमा तक पहुँच रहे हैं।
उस स्थिति में, यह अत्यधिक संभावित है कि ध्यान प्राकृतिक भाषा मशीन लर्निंग के माध्यम से क्षमताओं में सुधार पर स्थानांतरित हो जाएगा।