प्राकृतिक भाषा मशीन लर्निंग

पारंपरिक मशीन लर्निंग एक प्रतिमान के भीतर संचालित होती है जहाँ कंप्यूटर, जो संख्यात्मक गणना में निपुण होते हैं, संख्यात्मक डेटा से सीखते हैं और संख्यात्मक पैरामीटर प्राप्त करते हैं।

दूसरी ओर, हम केवल संख्यात्मक तंत्रों के माध्यम से ही नहीं, बल्कि भाषा के माध्यम से भी सीखने में सक्षम हैं। हम अनुभवों को शब्दों के रूप में व्यवस्थित और रिकॉर्ड करते हैं, फिर उनका उपयोग करने के लिए उन शब्दों को याद करते हैं या पढ़ते हैं।

बड़े भाषा मॉडल भी इसी तरह शब्दों का उपयोग करके ज्ञान का वर्णन कर सकते हैं और उन्हें पढ़कर शब्दों का उपयोग कर सकते हैं।

बड़े भाषा मॉडल, जो प्राकृतिक भाषा प्रोसेसर हैं, का लाभ उठाकर, केवल संख्यात्मक-आधारित मशीन लर्निंग के बजाय, प्राकृतिक भाषा-आधारित मशीन लर्निंग संभव हो जाती है।

परिणामस्वरूप, बड़े भाषा मॉडल के आगमन ने एक नया क्षेत्र खोल दिया है: प्राकृतिक भाषा मशीन लर्निंग।

बड़े भाषा मॉडल का प्री-ट्रेनिंग पारंपरिक संख्यात्मक मशीन लर्निंग है। यहाँ वर्णित प्राकृतिक भाषा मशीन लर्निंग एक नए प्रकार की मशीन लर्निंग को संदर्भित करती है जो प्री-ट्रेन्ड बड़े भाषा मॉडल का उपयोग करती है।

प्राकृतिक भाषा मशीन लर्निंग का मूल मॉडल

प्राकृतिक भाषा मशीन लर्निंग में ऐसे पहलू हैं जो पारंपरिक संख्यात्मक मशीन लर्निंग के समान हैं, और कुछ पूरी तरह से भिन्न भी हैं।

सबसे पहले, प्राकृतिक भाषा मशीन लर्निंग की एक छवि को समझने के लिए, हम उन हिस्सों की व्याख्या करेंगे जो पारंपरिक संख्यात्मक मशीन लर्निंग के समान हैं, एक मूल मॉडल के रूप में।

इस बिंदु से, हम एक पूर्व-प्रशिक्षित बड़े भाषा मॉडल को एलएलएम (LLM) के रूप में संदर्भित करेंगे। कृपया ध्यान दें कि इस सीखने की प्रक्रिया के दौरान एलएलएम के पैरामीटर बिल्कुल भी नहीं बदलते हैं।

मूल मॉडल पर्यवेक्षित शिक्षण है, जो एक वर्गीकरण समस्या को लक्षित करता है।

प्रशिक्षण डेटा के लिए सही उत्तरों के रूप में इनपुट वाक्यों और उनके वर्गीकरण के कई जोड़े तैयार किए जाते हैं।

उदाहरण के लिए, मान लीजिए कि किसी कंपनी में एक सामान्य प्रशासन विभाग (General Affairs Department) और एक प्रशासनिक कार्य विभाग (Administrative Affairs Department) है।

इन दोनों विभागों के कार्यों का विभाजन होता है। "कार्यालय का बल्ब खराब हो गया है," "मैं अपना एक्सेस कार्ड भूल गया," या "मैं मुख्यालय में मुख्य हॉल आरक्षित करना चाहता हूँ," जैसे इनपुट वाक्यों के लिए, वर्गीकरण यह इंगित करता है कि सामान्य प्रशासन विभाग या प्रशासनिक कार्य विभाग जिम्मेदार है।

इस प्रशिक्षण डेटा से, केवल इनपुट वाक्य निकाले जाते हैं और एलएलएम में फीड किए जाते हैं।

यहाँ, एक सिस्टम प्रॉम्प्ट के रूप में, हम जानबूझकर उत्तर को प्रतिबंधित करते हुए कहते हैं, "कृपया बताएं कि इस पूछताछ के लिए कौन सा विभाग, सामान्य प्रशासन या प्रशासनिक कार्य, जिम्मेदार है। अपने उत्तर में 'सामान्य प्रशासन' या 'प्रशासनिक कार्य' के अलावा कोई अन्य वर्ण शामिल न करें।"

शुरुआत में, एलएलएम इस कंपनी के किसी भी ज्ञान के बिना उत्तर उत्पन्न करेगा। स्वाभाविक रूप से, कुछ उत्तर गलत होंगे, जबकि अन्य संयोग से सही हो सकते हैं।

प्रत्येक उत्तर के लिए, शिक्षक प्रणाली यह निर्धारित करती है कि यह सही है या गलत। फिर, इनपुट वाक्य, एलएलएम का उत्तर, और निर्णय परिणाम का संयोजन एक ज्ञानकोश (knowledge base) में सहेजा जाता है।

यह प्रक्रिया प्रशिक्षण डेटा के लगभग आधे हिस्से के लिए दोहराई जाती है।

प्रशिक्षण डेटा के शेष आधे के लिए, वही प्रक्रिया की जाती है, लेकिन इस बार ज्ञानकोश में दर्ज की गई सभी जानकारी एलएलएम के लिए सिस्टम प्रॉम्प्ट में जोड़ दी जाती है।

इस बिंदु पर, ज्ञानकोश में इस कंपनी के सामान्य प्रशासन और प्रशासनिक कार्य विभागों के बीच कर्तव्यों के विभाजन के बारे में जानकारी होती है, इसलिए सही उत्तर प्राप्त करने की संभावना डेटा के पहले आधे की तुलना में अधिक होनी चाहिए।

इस तरह, एलएलएम और ज्ञानकोश के संयोजन वाली एक प्रणाली इस कंपनी के सामान्य प्रशासन और प्रशासनिक कार्य विभागों के बीच कर्तव्यों के विभाजन को सीख सकती है।

सीखने की क्रियाविधि स्वयं पारंपरिक संख्यात्मक मशीन लर्निंग के समान है। अंतर यह है कि सीखने के परिणाम एलएलएम के भीतर न्यूरल नेटवर्क के मापदंडों में नहीं, बल्कि ज्ञानकोश में परिलक्षित होते हैं। और, ज्ञानकोश में संख्याएँ नहीं, बल्कि प्राकृतिक भाषा दर्ज की जाती है।

यह प्राकृतिक भाषा मशीन लर्निंग का मूल मॉडल है।

मूल मॉडल की वास्तविकता

जैसा कि एलएलएम (LLMs) का लाभ उठाने वाला कोई भी व्यक्ति तुरंत महसूस करेगा, इस मूल मॉडल में यथार्थवाद की कमी है।

ऐसा इसलिए है क्योंकि, सही और गलत उत्तरों को निर्धारित करने के लिए एक शिक्षक प्रणाली रखने की परेशानी से गुजरने के बजाय, कोई भी शुरू से ही प्रशिक्षण डेटा को सीधे सिस्टम प्रॉम्प्ट में इनपुट कर सकता है।

हालांकि, मूल मॉडल को लागू करके और परिदृश्य को थोड़ा बदलकर, यह यथार्थवाद प्राप्त करता है।

उदाहरण के लिए, मान लीजिए कि सामान्य प्रशासन और प्रशासनिक कार्य विभागों ने मिलकर एक पूछताछ डेस्क स्थापित किया है, और मनुष्य व्यक्तिगत रूप से आने वाली पूछताछ को उचित विभाग में वर्गीकृत करते हैं।

इन पूछताछ और उनके रूटिंग परिणामों को एक ज्ञानकोश (knowledge base) में जोड़ने के लिए एक सरल प्रणाली बनाई जा सकती है।

फिर, इस ज्ञानकोश का उपयोग करके, एलएलएम मनुष्यों से नए पूछताछ को विभागों तक पहुंचाने का कार्य संभाल सकता है।

इस मामले में, यदि एलएलएम गलती से प्रशासनिक कार्य के लिए एक पूछताछ को सामान्य प्रशासन में भेजता है, तो सामान्य प्रशासन का प्रभारी व्यक्ति पूछताछ को वापस प्रशासनिक कार्य में भेजेगा। यह पुन: रूटिंग जानकारी भी ज्ञानकोश में दर्ज की जाती है।

रूटिंग लॉग को रिकॉर्ड करने के लिए यह सरल तंत्र, एलएलएम और ज्ञानकोश प्रणाली के साथ मिलकर, प्राकृतिक भाषा मशीन लर्निंग के लिए एक यथार्थवादी पर्यवेक्षित मॉडल बन जाएगा।

यहां मुख्य बात, फिर से, यह है कि एलएलएम के भीतर तंत्रिका नेटवर्क पैरामीटर बिल्कुल भी नहीं बदलते हैं। और प्रतिक्रिया सीखने के परिणाम संख्यात्मक मान नहीं हैं, बल्कि प्राकृतिक भाषा वाक्यों का संग्रह हैं।

इसके अलावा, यह प्रणाली निस्संदेह एक मशीन लर्निंग प्रणाली है, न कि मानव सीखने की प्रणाली।

इसलिए, यह मशीन लर्निंग का एक नया रूप है: प्राकृतिक भाषा के माध्यम से मशीन लर्निंग।

प्राकृतिक भाषा मशीन लर्निंग की ताकत

संख्यात्मक मशीन लर्निंग के विपरीत, प्राकृतिक भाषा सीखने के कई फायदे हैं।

एक शब्द में, इसकी मुख्य विशेषता इसकी जबरदस्त सीखने की दक्षता है।

संख्यात्मक मशीन लर्निंग में आम तौर पर बड़ी मात्रा में प्रशिक्षण डेटा और पुनरावृत्ति सीखने की आवश्यकता होती है। प्रशिक्षण डेटा का पूर्व-प्रसंस्करण भी आवश्यक है।

बड़ी मात्रा में प्रशिक्षण डेटा की आवश्यकता इसलिए होती है क्योंकि जो विशेषताएँ कोई सीखना चाहता है वे डेटा के एक ही टुकड़े में समाहित नहीं होती हैं, बल्कि बड़ी मात्रा में डेटा में वितरित होती हैं।

इस कारण से, वास्तव में वांछित विशेषताओं के आयाम के वर्ग के क्रम में प्रशिक्षण डेटा की आवश्यकता होती है।

पुनरावृत्ति सीखने की आवश्यकता इसलिए होती है क्योंकि न्यूरल नेटवर्क पैरामीटर स्थानीय ऑप्टिमा में फंसे बिना उचित रूप से सीखे जाते हैं यह सुनिश्चित करने के लिए एक एकल प्रतिक्रिया लूप के दौरान मापदंडों में परिवर्तन छोटा होना चाहिए।

प्रशिक्षण डेटा का पूर्व-प्रसंस्करण, जैसे सामान्यीकरण और एज एक्सट्रैक्शन, वास्तव में वांछित विशेषताओं को उजागर करने के लिए आवश्यक है। इस पूर्व-प्रसंस्करण में भी काफी प्रयास की आवश्यकता होती है।

उदाहरण के लिए, यदि प्रशासनिक और सामान्य मामलों के विभागों के बीच कर्तव्यों का विभाजन एक पारंपरिक न्यूरल नेटवर्क का उपयोग करके सीखा जाना था, और इसकी विशेषताएँ 50-आयामी थीं, तो कम से कम 1000 या अधिक प्रशिक्षण डेटा बिंदुओं की आवश्यकता होगी। इसके अतिरिक्त, इन 1000+ डेटा बिंदुओं को पर्याप्त सीखने की सटीकता प्राप्त करने के लिए लगभग 100 बार पुनरावृति करने की आवश्यकता हो सकती है।

इसके अलावा, यदि इन 1000 डेटा बिंदुओं में बाहरी शब्द, शब्द वर्तनी में भिन्नता, या विभिन्न प्रकार के शब्द क्रम और सिंटेक्स शामिल हैं, तो सीखने की दक्षता कम हो जाएगी, या अप्रासंगिक विशेषताएँ सीखी जाएंगी।

इसलिए, बाहरी शब्दों को हटाने, भिन्नताओं को खत्म करने के लिए शब्दावली को मानकीकृत करने, और शब्द क्रम और सिंटेक्स को एकीकृत करने के लिए पूर्व-प्रसंस्करण अनिवार्य है।

दूसरी ओर, प्राकृतिक भाषा मशीन लर्निंग में कम प्रशिक्षण डेटा की आवश्यकता होती है, उसी प्रशिक्षण डेटा के साथ पुनरावृति की आवश्यकता नहीं होती है, और कई मामलों में, पूर्व-प्रसंस्करण की आवश्यकता नहीं होती है।

यदि प्रशासनिक और सामान्य मामलों के विभागों के बीच कर्तव्यों के विभाजन की विशेषताएँ 50-आयामी हैं, तो प्रत्येक आयाम के अनुरूप 50 जानकारी के टुकड़े अक्सर पर्याप्त होते हैं।

इसके अलावा, इसका मतलब यह नहीं है कि 50 अलग-अलग वाक्यों की आवश्यकता है।

"ए, बी, सी, और डी से संबंधित कर्तव्य प्रशासनिक विभाग द्वारा संभाले जाते हैं" जैसा एक वाक्य चार आयामों के लिए जानकारी शामिल कर सकता है।

इसके अतिरिक्त, भाषा को अमूर्त करके, कई आयामों से जानकारी एकत्र की जा सकती है। "भवन के उपभोग्य वस्तु और उपकरण रखरखाव प्रशासनिक विभाग की जिम्मेदारी है" जैसा एक वाक्य प्रकाश बल्ब बदलने और स्वचालित दरवाजे की खराबी सहित विभिन्न प्रकार के आयामों से जानकारी एकत्र करता है।

यह अमूर्तिकरण एलएलएम के पूर्व-प्रशिक्षित ज्ञान और तर्क क्षमताओं का लाभ उठाता है, जिससे आवश्यक प्रशिक्षण डेटा की मात्रा कम हो जाती है।

और, मूल रूप से, प्राकृतिक भाषा सीखने के लिए पुनरावृत्ति सीखने की आवश्यकता नहीं होती है। एक बार जब उपर्युक्त वाक्य ज्ञानकोश में जोड़ दिया जाता है, तो सीखना पूरा हो जाता है।

इसके अलावा, ज्ञान के पूर्व-प्रसंस्करण की आवश्यकता नहीं है। भले ही प्रशासनिक या सामान्य मामलों के विभागों के विवरण विभिन्न अन्य वाक्यों के साथ मिश्रित हों, फिर भी उन्हें ज्ञान के रूप में उपयोग किया जा सकता है।

वैकल्पिक रूप से, कच्चा डेटा, जैसे कि पिछले उदाहरण में पूछताछ और असाइनमेंट के लॉग, को बिना पूर्व-प्रसंस्करण के तुरंत प्रशिक्षण डेटा के रूप में उपयोग किया जा सकता है।

इस तरह, प्राकृतिक भाषा मशीन लर्निंग संख्यात्मक मशीन लर्निंग की तुलना में कहीं अधिक कुशलता से सीख सकती है।

निष्कर्ष

कंप्यूटर की उच्च गति वाली संख्यात्मक गणना क्षमताओं की तुलना में, बड़े भाषा मॉडल की प्राकृतिक भाषा प्रसंस्करण क्षमताएँ काफी धीमी हैं।

हालांकि, संख्यात्मक मशीन लर्निंग की तुलना में प्राकृतिक भाषा मशीन लर्निंग अधिक कुशल सीखने की अनुमति देती है।

यह दक्षता उच्च गति वाली संख्यात्मक गणना क्षमताओं और धीमी प्राकृतिक भाषा प्रसंस्करण क्षमताओं के बीच के अंतर से कहीं अधिक है।

इसके अतिरिक्त, बड़े भाषा मॉडल, जिन्होंने संख्यात्मक सीखने के माध्यम से आश्चर्यजनक विकास किया है, स्केलिंग नियमों के अनुसार, साधारण स्केलिंग अप के माध्यम से क्षमता सुधार में एक सीमा तक पहुँच रहे हैं।

उस स्थिति में, यह अत्यधिक संभावित है कि ध्यान प्राकृतिक भाषा मशीन लर्निंग के माध्यम से क्षमताओं में सुधार पर स्थानांतरित हो जाएगा।

प्राकृतिक भाषा मशीन लर्निंग का मूल मॉडल

मूल मॉडल की वास्तविकता

प्राकृतिक भाषा मशीन लर्निंग की ताकत

निष्कर्ष

श्रेणियाँ

टैग

संबंधित लेख

कृत्रिम शिक्षण बुद्धिमत्ता प्रणाली: ALIS अवधारणा

लिक्विडवेयर युग में सर्वदिशात्मक इंजीनियर

वर्चुअल इंटेलिजेंस का ऑर्केस्ट्रेशन

क्रोनोस्क्रेम्बल सोसाइटी

सीखने का सीखना: सहज बुद्धि

विचार का भाग्य: AI और मानवता