सामग्री पर जाएं
यह लेख जापानी से एआई का उपयोग करके अनुवादित किया गया है
जापानी में पढ़ें
यह लेख सार्वजनिक डोमेन (CC0) में है। इसे स्वतंत्र रूप से उपयोग करने के लिए स्वतंत्र महसूस करें। CC0 1.0 Universal

प्राकृतिक भाषा मशीन लर्निंग

पारंपरिक मशीन लर्निंग एक प्रतिमान के भीतर संचालित होता है जहाँ कंप्यूटर, संख्यात्मक गणना में निपुण होकर, संख्यात्मक डेटा का उपयोग करके सीखते हैं और परिमाणित पैरामीटर प्राप्त करते हैं।

हालांकि, मनुष्य न केवल संख्यात्मक तंत्रों के माध्यम से बल्कि भाषा के माध्यम से भी सीखने में सक्षम हैं। हम अनुभवों को शब्दों में व्यवस्थित और रिकॉर्ड करते हैं, और फिर उन शब्दों को याद करते हैं, पढ़ते हैं और उनका उपयोग करते हैं।

लार्ज लैंग्वेज मॉडल (LLMs) भी इसी तरह शब्दों में ज्ञान का वर्णन कर सकते हैं और शब्दों को पढ़कर ज्ञान का उपयोग कर सकते हैं।

प्राकृतिक भाषा प्रोसेसर के रूप में LLMs का लाभ उठाकर, केवल संख्यात्मक-आधारित मशीन लर्निंग के बजाय, प्राकृतिक भाषा-आधारित मशीन लर्निंग संभव हो जाती है।

इस कारण से, LLMs के आगमन ने एक नया क्षेत्र खोला है: प्राकृतिक भाषा मशीन लर्निंग।

LLMs का पूर्व-प्रशिक्षण पारंपरिक संख्यात्मक मशीन लर्निंग का एक रूप है। यहाँ चर्चा की गई प्राकृतिक भाषा मशीन लर्निंग एक नए प्रकार की मशीन लर्निंग को संदर्भित करती है जो पूर्व-प्रशिक्षित LLMs का उपयोग करती है।

प्राकृतिक भाषा मशीन लर्निंग का मूल मॉडल

प्राकृतिक भाषा मशीन लर्निंग में ऐसे पहलू होते हैं जो पारंपरिक संख्यात्मक मशीन लर्निंग के समान होते हैं, साथ ही ऐसे पहलू भी होते हैं जो पूरी तरह से भिन्न होते हैं।

प्राकृतिक भाषा मशीन लर्निंग की अवधारणा को पहले समझने के लिए, आइए हम एक मूल मॉडल का वर्णन करें जो पारंपरिक संख्यात्मक मशीन लर्निंग के समान भागों पर केंद्रित है।

यहां से, एक पूर्व-प्रशिक्षित लार्ज लैंग्वेज मॉडल को LLM के रूप में संदर्भित किया जाएगा। ध्यान दें कि इस सीखने की प्रक्रिया के दौरान LLM के पैरामीटर बिल्कुल भी नहीं बदलते हैं।

मूल मॉडल एक पर्यवेक्षित शिक्षण मॉडल है, जो वर्गीकरण समस्याओं को लक्षित करता है।

सीखने के डेटा के लिए, इनपुट वाक्यों और उनके वर्गीकरण के कई जोड़े सही उत्तर के रूप में तैयार किए जाते हैं।

उदाहरण के लिए, मान लीजिए कि किसी कंपनी में एक सामान्य प्रशासन विभाग और एक प्रशासनिक विभाग है।

इन दोनों विभागों की अलग-अलग भूमिकाएँ होती हैं। "कार्यालय का बल्ब खराब है," "मैं अपना एक्सेस कार्ड भूल गया/गई," या "मैं मुख्यालय में मुख्य हॉल बुक करना चाहता/चाहती हूँ," जैसे इनपुट वाक्यों के लिए, वर्गीकरण इंगित करता है कि कौन सा विभाग, सामान्य प्रशासन या प्रशासनिक विभाग, जिम्मेदार है।

इस प्रशिक्षण डेटा से, केवल इनपुट वाक्यों को निकाला जाता है और LLM में फीड किया जाता है।

यहां, हम जानबूझकर सिस्टम प्रॉम्प्ट के माध्यम से प्रतिक्रिया को प्रतिबंधित करते हैं, जैसे, "कृपया बताएं कि इस पूछताछ के लिए जिम्मेदार विभाग सामान्य प्रशासन है या प्रशासनिक विभाग। अपने उत्तर में 'सामान्य प्रशासन' या 'प्रशासनिक विभाग' के अलावा कोई अन्य वर्ण शामिल न करें।"

प्रारंभ में, LLM इस कंपनी के ज्ञान के बिना एक प्रतिक्रिया उत्पन्न करता है। स्वाभाविक रूप से, यह गलत हो सकता है, या कभी-कभी संयोग से सही हो सकता है।

प्रत्येक प्रतिक्रिया के लिए, एक शिक्षण प्रणाली यह निर्धारित करती है कि यह सही है या गलत। फिर, इनपुट वाक्य, LLM की प्रतिक्रिया, और निर्णय परिणाम का संयोजन एक ज्ञान आधार में सहेजा जाता है।

यह प्रक्रिया लगभग आधे प्रशिक्षण डेटा के लिए दोहराई जाती है।

शेष आधे प्रशिक्षण डेटा के लिए, ज्ञान आधार में दर्ज सभी जानकारी को LLM के लिए सिस्टम प्रॉम्प्ट में जोड़ा जाता है, और वही प्रक्रिया की जाती है।

इस बिंदु पर, ज्ञान आधार में इस कंपनी के सामान्य प्रशासन और प्रशासनिक विभागों के बीच कर्तव्यों के विभाजन के बारे में जानकारी होती है, इसलिए सही उत्तर की संभावना डेटा के पहले आधे की तुलना में अधिक होनी चाहिए।

इस तरह, एक LLM और एक ज्ञान आधार को मिलाकर एक प्रणाली एक कंपनी के सामान्य प्रशासन और प्रशासनिक विभागों के लिए कर्तव्यों के विभाजन को सीख सकती है।

सीखने का तंत्र पारंपरिक संख्यात्मक मशीन लर्निंग के समान ही है। अंतर यह है कि सीखने के परिणाम ज्ञान आधार में परिलक्षित होते हैं, न कि LLM के भीतर न्यूरल नेटवर्क के पैरामीटर में। इसके अलावा, ज्ञान आधार संख्यात्मक मूल्यों के बजाय प्राकृतिक भाषा को रिकॉर्ड करता है।

यह प्राकृतिक भाषा मशीन लर्निंग का मूल मॉडल है।

मूल मॉडल की वास्तविकता

जो लोग LLM का उपयोग करते हैं, वे तुरंत महसूस करेंगे कि यह मूल मॉडल वास्तविकता से मेल नहीं खाता है।

ऐसा इसलिए है क्योंकि किसी शिक्षण प्रणाली को सही/गलत निर्णय निर्धारित करने में परेशानी उठाने की आवश्यकता नहीं है; कोई भी शुरुआत से ही प्रशिक्षण डेटा को सीधे सिस्टम प्रॉम्प्ट में इनपुट कर सकता है।

हालांकि, मूल मॉडल को लागू करके और परिदृश्य को थोड़ा बदलकर, यह वास्तविकता प्राप्त करता है।

उदाहरण के लिए, कल्पना कीजिए कि सामान्य प्रशासन विभाग और प्रशासनिक विभाग संयुक्त रूप से एक पूछताछ डेस्क बनाते हैं, और एक मानव मैन्युअल रूप से प्रत्येक आने वाली पूछताछ को उपयुक्त विभाग को सौंपता है।

इन पूछताछों और उनके असाइनमेंट परिणामों को एक ज्ञान आधार में जोड़ने के लिए एक सरल प्रणाली बनाई गई है।

फिर, इस ज्ञान आधार का उपयोग करके, LLM मनुष्यों से कार्यभार संभाल सकता है और विभागों को नई पूछताछ सौंप सकता है।

इस मामले में, यदि LLM प्रशासनिक विभाग के लिए एक पूछताछ को सामान्य प्रशासन को गलत तरीके से सौंपता है, तो सामान्य प्रशासन कर्मचारी पूछताछ को प्रशासनिक विभाग को फिर से सौंप देंगे। यह पुनः असाइनमेंट जानकारी भी ज्ञान आधार में दर्ज की जाती है।

असाइनमेंट लॉग रिकॉर्ड करने के लिए यह सरल तंत्र, LLM और एक ज्ञान आधार के संयोजन में, एक यथार्थवादी पर्यवेक्षित प्राकृतिक भाषा मशीन लर्निंग मॉडल का गठन करेगा।

यहां मुख्य बात, दोहराने के लिए, यह है कि LLM के भीतर न्यूरल नेटवर्क के पैरामीटर बिल्कुल भी नहीं बदलते हैं। इसके अलावा, फीडबैक सीखने का परिणाम प्राकृतिक भाषा के वाक्यों का एक संग्रह है, न कि संख्यात्मक मान।

और, बिना किसी संदेह के, इस प्रणाली में मशीन लर्निंग शामिल है, न कि मानव लर्निंग।

इसलिए, यह मशीन लर्निंग का एक नया रूप है: प्राकृतिक भाषा मशीन लर्निंग।

प्राकृतिक भाषा मशीन लर्निंग की ताकतें

संख्यात्मक मशीन लर्निंग के विपरीत, प्राकृतिक भाषा सीखने के कई फायदे हैं।

संक्षेप में, इसकी परिभाषित विशेषता अत्यधिक उच्च सीखने की दक्षता है।

संख्यात्मक मशीन लर्निंग को आमतौर पर बड़ी मात्रा में प्रशिक्षण डेटा और पुनरावृत्तीय सीखने की आवश्यकता होती है। इसके अलावा, प्रशिक्षण डेटा का पूर्व-संसाधन भी आवश्यक है।

बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता इसलिए होती है क्योंकि सीखे जाने वाले गुण एकल डेटा के भीतर समाहित नहीं होते हैं बल्कि बड़ी मात्रा में डेटा के बीच वितरित होते हैं।

इस कारण से, वास्तव में वांछित गुणों की आयामीता के वर्ग के क्रम में प्रशिक्षण डेटा की आवश्यकता होती है।

पुनरावृत्तीय सीखना यह सुनिश्चित करने के लिए आवश्यक है कि तंत्रिका नेटवर्क के पैरामीटर स्थानीय मिनिमा में फंसे बिना ठीक से सीखे जाएं, जिसके लिए प्रत्येक प्रतिक्रिया के साथ पैरामीटर परिवर्तन को छोटा रखने की आवश्यकता होती है।

वास्तव में वांछित गुणों को उजागर करने के लिए प्रशिक्षण डेटा का पूर्व-संसाधन, जैसे सामान्यीकरण और एज एक्सट्रैक्शन, आवश्यक है। इस पूर्व-संसाधन में भी महत्वपूर्ण प्रयास की आवश्यकता होती है।

उदाहरण के लिए, यदि प्रशासनिक मामलों के विभाग और सामान्य मामलों के विभाग के बीच कर्तव्यों के विभाजन को पारंपरिक तंत्रिका नेटवर्क का उपयोग करके सीखा जाना था, और इसके गुण 50-आयामी थे, तो कम से कम लगभग 1,000 या अधिक प्रशिक्षण डेटा उदाहरणों की आवश्यकता होगी। इसके अलावा, इन 1,000+ डेटा उदाहरणों को उपयुक्त सीखने की सटीकता प्राप्त करने के लिए लगभग 100 बार पुनरावृत्तीय रूप से सीखने की आवश्यकता हो सकती है।

इसके अलावा, यदि इस 1,000 प्रशिक्षण डेटा उदाहरणों के सेट में बाहरी शब्द, वर्तनी में भिन्नताएं, या विभिन्न प्रकार के शब्द क्रम और वाक्य संरचनाएं शामिल हैं, तो सीखने की दक्षता घट जाती है, और असंबंधित गुण सीखे जा सकते हैं।

इसलिए, बाहरी शब्दों को हटाने, भिन्नताओं को खत्म करने के लिए शब्दावली को मानकीकृत करने, और शब्द क्रम और वाक्य विन्यास को एकीकृत करने के लिए पूर्व-संसाधन अनिवार्य है।

इसके विपरीत, प्राकृतिक भाषा मशीन लर्निंग को कम प्रशिक्षण डेटा, समान प्रशिक्षण डेटा के साथ कोई पुनरावृत्ति, और अक्सर कोई पूर्व-संसाधन की आवश्यकता नहीं होती है।

यदि प्रशासनिक मामलों के विभाग और सामान्य मामलों के विभाग के बीच कर्तव्यों के विभाजन के गुण 50-आयामी हैं, तो प्रत्येक आयाम के अनुरूप 50 जानकारी के टुकड़े पर्याप्त हैं।

इसके अलावा, इसका मतलब यह नहीं है कि 50 अलग-अलग वाक्यों की आवश्यकता है।

"A, B, C, और D से संबंधित कर्तव्य प्रशासनिक मामलों के विभाग द्वारा संभाले जाते हैं" जैसा एक वाक्य चार आयामों की जानकारी को समाहित कर सकता है।

इसके अलावा, भाषा को अमूर्त करके, कई आयामों से जानकारी को एकत्रित किया जा सकता है। "भवन के उपभोज्य और सुविधाओं का रखरखाव प्रशासनिक मामलों के विभाग की जिम्मेदारी है" जैसा एक वाक्य प्रकाश बल्ब बदलने और स्वचालित दरवाजे की खराबी सहित आयामी जानकारी की एक विस्तृत श्रृंखला को एकत्रित करता है।

इस अमूर्तीकरण को LLM के पूर्व-प्रशिक्षित ज्ञान और तर्क क्षमताओं का लाभ उठाकर प्रशिक्षण डेटा को कम करने वाला कहा जा सकता है।

और, मूल रूप से, प्राकृतिक भाषा सीखने के लिए पुनरावृत्तीय सीखने की आवश्यकता नहीं होती है। एक बार जब उपरोक्त वाक्य ज्ञान आधार में जोड़ दिया जाता है, तो सीखना पूरा हो जाता है।

इसके अतिरिक्त, ज्ञान का पूर्व-संसाधन अनावश्यक है। भले ही प्रशासनिक मामलों के विभाग या सामान्य मामलों के विभाग के स्पष्टीकरण विभिन्न ग्रंथों में मिश्रित हों, फिर भी उन्हें ज्ञान के रूप में उपयोग किया जा सकता है।

या, जैसा कि पिछले उदाहरण में है, पूछताछ और असाइनमेंट रिकॉर्ड जैसे कच्चे डेटा को बिना पूर्व-संसाधन के तुरंत प्रशिक्षण डेटा के रूप में उपयोग किया जा सकता है।

इस प्रकार, प्राकृतिक भाषा मशीन लर्निंग संख्यात्मक मशीन लर्निंग की तुलना में कहीं अधिक कुशलता से सीख सकती है।

निष्कर्ष

कंप्यूटर की तीव्र गति वाली संख्यात्मक गणना क्षमताओं की तुलना में, बड़े भाषा मॉडल की प्राकृतिक भाषा प्रसंस्करण क्षमता काफी धीमी होती है।

हालांकि, प्राकृतिक भाषा मशीन लर्निंग कुशल सीखने की अनुमति देता है, जो उच्च-गति वाली संख्यात्मक गणना और धीमी प्राकृतिक भाषा प्रसंस्करण के बीच के अंतर से कहीं अधिक है।

इसके अलावा, बड़े भाषा मॉडल, जिन्होंने संख्यात्मक सीखने के माध्यम से आश्चर्यजनक प्रगति की है, स्केलिंग कानूनों के अनुसार, साधारण स्केलिंग अप के माध्यम से प्रदर्शन सुधार की सीमाओं के करीब पहुंच रहे हैं।

ऐसे परिदृश्य में, यह अत्यधिक संभव है कि ध्यान प्राकृतिक भाषा मशीन लर्निंग के माध्यम से क्षमताओं को बढ़ाने की ओर स्थानांतरित हो जाएगा।