पारंपारिक मशीन लर्निंगमध्ये संगणक, जे संख्यात्मक गणनेमध्ये कुशल आहेत, संख्यात्मक डेटामधून शिकतात आणि संख्यात्मक पॅरामीटर्स प्राप्त करतात.
दुसरीकडे, आपण केवळ संख्यात्मक यंत्रणेद्वारेच नव्हे तर भाषेच्या माध्यमातूनही शिकू शकतो. आपण अनुभवांना शब्दांच्या रूपात व्यवस्थित करतो आणि नोंदवतो, त्यानंतर त्या शब्दांना आठवून किंवा वाचून त्यांचा उपयोग करतो.
मोठे भाषा मॉडेल (large language models) देखील अशाच प्रकारे शब्दांचा वापर करून ज्ञान वर्णन करू शकतात आणि ते शब्द वाचून त्यांचा उपयोग करू शकतात.
मोठ्या भाषा मॉडेल्सचा लाभ घेऊन, जे नैसर्गिक भाषा प्रोसेसर आहेत, केवळ संख्यात्मक-आधारित मशीन लर्निंगऐवजी नैसर्गिक भाषा-आधारित मशीन लर्निंग शक्य होते.
परिणामी, मोठ्या भाषा मॉडेल्सच्या आगमनाने एक नवीन क्षेत्र उघडले आहे: नैसर्गिक भाषा मशीन लर्निंग.
मोठ्या भाषा मॉडेल्सचे पूर्व-प्रशिक्षण (pre-training) हे पारंपारिक संख्यात्मक मशीन लर्निंग आहे. येथे वर्णन केलेले नैसर्गिक भाषा मशीन लर्निंग हे पूर्व-प्रशिक्षित मोठ्या भाषा मॉडेल्सचा उपयोग करणाऱ्या मशीन लर्निंगच्या नवीन स्वरूपाचा संदर्भ देते.
नैसर्गिक भाषा मशीन लर्निंगचे मूलभूत मॉडेल
नैसर्गिक भाषा मशीन लर्निंगमध्ये पारंपरिक संख्यात्मक मशीन लर्निंगशी साधर्म्य असलेले आणि पूर्णपणे भिन्न असलेले असे दोन्ही पैलू आहेत.
प्रथम, नैसर्गिक भाषा मशीन लर्निंगची कल्पना स्पष्ट करण्यासाठी, आपण पारंपरिक संख्यात्मक मशीन लर्निंगशी साधर्म्य असलेले भाग मूलभूत मॉडेल म्हणून स्पष्ट करू.
यापुढे, आपण पूर्व-प्रशिक्षित मोठ्या भाषा मॉडेलला (pre-trained large language model) 'एलएलएम' (LLM) असे संबोधू. कृपया लक्षात घ्या की या शिक्षण प्रक्रियेदरम्यान एलएलएमचे पॅरामीटर्स अजिबात बदलत नाहीत.
मूलभूत मॉडेल हे वर्गीकरण समस्येसाठी लक्ष्यित पर्यवेक्षित शिक्षण (supervised learning) आहे.
प्रशिक्षणासाठी योग्य उत्तरे म्हणून, इनपुट वाक्ये आणि त्यांच्या वर्गीकरणाच्या अनेक जोड्या प्रशिक्षण डेटा म्हणून तयार केल्या जातात.
उदाहरणार्थ, समजा एका कंपनीत सामान्य व्यवहार विभाग (General Affairs Department) आणि प्रशासकीय व्यवहार विभाग (Administrative Affairs Department) आहेत.
या दोन विभागांमध्ये कामांची विभागणी आहे. "कार्यालयातील लाईट बल्ब बंद आहे," "मी माझे प्रवेशपत्र (access card) विसरलो," किंवा "मला मुख्यालयातील मुख्य हॉल आरक्षित करायचा आहे" यांसारख्या इनपुट वाक्यांसाठी, वर्गीकरण हे दर्शवते की सामान्य व्यवहार विभाग की प्रशासकीय व्यवहार विभाग जबाबदार आहे.
या प्रशिक्षण डेटामधून, केवळ इनपुट वाक्ये काढून एलएलएममध्ये फीड केली जातात.
येथे, सिस्टम प्रॉम्प्ट म्हणून, आम्ही जाणूनबुजून उत्तरावर मर्यादा घालतो: "कृपया या चौकशीसाठी सामान्य व्यवहार विभाग की प्रशासकीय व्यवहार विभाग जबाबदार आहे, ते सांगा. तुमच्या उत्तरात 'सामान्य व्यवहार विभाग' किंवा 'प्रशासकीय व्यवहार विभाग' व्यतिरिक्त इतर कोणतेही वर्ण समाविष्ट करू नका."
सुरुवातीला, एलएलएम या कंपनीच्या कोणत्याही ज्ञानाशिवाय उत्तरे तयार करेल. स्वाभाविकपणे, काही उत्तरे चुकीची असतील, तर काही योगायोगाने बरोबर असू शकतात.
प्रत्येक उत्तरासाठी, शिक्षक प्रणाली (teacher system) ते बरोबर आहे की चुकीचे आहे हे ठरवते. त्यानंतर, इनपुट वाक्य, एलएलएमचे उत्तर आणि निर्णयाचा निकाल यांचा संयोग एका ज्ञानकोशात (knowledge base) साठवला जातो.
ही प्रक्रिया सुमारे अर्ध्या प्रशिक्षण डेटासाठी पुनरावृत्त केली जाते.
प्रशिक्षण डेटाच्या उर्वरित अर्ध्या भागासाठी, तीच प्रक्रिया केली जाते, परंतु यावेळी ज्ञानकोशात (knowledge base) नोंदवलेली सर्व माहिती एलएलएमसाठी सिस्टम प्रॉम्प्टमध्ये जोडली जाते.
या टप्प्यावर, ज्ञानकोशात (knowledge base) या कंपनीच्या सामान्य व्यवहार आणि प्रशासकीय व्यवहार विभागांमधील कामांच्या विभागणीबद्दल माहिती असते, त्यामुळे पहिल्या अर्ध्या डेटाच्या तुलनेत योग्य उत्तरे मिळण्याची शक्यता जास्त असावी.
अशा प्रकारे, एलएलएम आणि ज्ञानकोशाचे (knowledge base) संयोजन करणारी प्रणाली या कंपनीच्या सामान्य व्यवहार आणि प्रशासकीय व्यवहार विभागांमधील कामांची विभागणी शिकू शकते.
शिक्षणाची यंत्रणा स्वतः पारंपरिक संख्यात्मक मशीन लर्निंगसारखीच आहे. फरक एवढाच आहे की शिकण्याचे परिणाम एलएलएममधील न्यूरल नेटवर्कच्या पॅरामीटर्समध्ये नव्हे, तर ज्ञानकोशात (knowledge base) परावर्तित होतात. आणि, ज्ञानकोशात संख्या नव्हे, तर नैसर्गिक भाषा नोंदवली जाते.
हे नैसर्गिक भाषा मशीन लर्निंगचे मूलभूत मॉडेल आहे.
मूलभूत मॉडेलची वास्तविकता
एलएलएम (LLMs) वापरणाऱ्या कोणालाही लवकरच लक्षात येईल की हे मूलभूत मॉडेल वास्तववादी नाही.
कारण, शिक्षक प्रणालीला योग्य आणि अयोग्य उत्तरे निश्चित करण्याची प्रक्रिया करण्याऐवजी, सुरुवातीपासूनच प्रशिक्षण डेटा थेट सिस्टम प्रॉम्प्टमध्ये टाकता येतो.
परंतु, मूलभूत मॉडेल लागू करून आणि परिस्थिती थोडी बदलून, ते अधिक वास्तववादी बनवता येते.
उदाहरणार्थ, समजा सामान्य व्यवहार विभाग (General Affairs) आणि प्रशासकीय व्यवहार विभाग (Administrative Affairs) यांनी एकत्रितपणे चौकशी कक्ष (inquiry desk) सुरू केला आहे आणि येणाऱ्या चौकशांचे वर्गीकरण (triage) मानव आपापल्या संबंधित विभागांना करत आहेत.
या चौकशा आणि त्यांच्या मार्गनिर्देशनाचे (routing) परिणाम ज्ञानकोशात (knowledge base) समाविष्ट करण्यासाठी एक साधी प्रणाली तयार केली जाऊ शकते.
मग, या ज्ञानकोशाचा वापर करून, एलएलएम (LLM) मानवांकडून नवीन चौकशा संबंधित विभागांना मार्गनिर्देशित करण्याचे काम हाती घेऊ शकते.
या प्रकरणात, जर एलएलएमने प्रशासकीय विभागासाठी असलेली चौकशी चुकून सामान्य विभागाकडे पाठवली, तर सामान्य विभागातील प्रभारी व्यक्ती ती चौकशी पुन्हा प्रशासकीय विभागाकडे मार्गनिर्देशित करेल. ही पुनर्-मार्गनिर्देशनाची माहिती देखील ज्ञानकोशात नोंदवली जाते.
मार्गनिर्देशन नोंदी (routing logs) नोंदवण्याची ही साधी यंत्रणा, एलएलएम आणि ज्ञानकोश प्रणालीसह एकत्रित केल्यास, नैसर्गिक भाषा मशीन लर्निंगसाठी एक वास्तववादी पर्यवेक्षित मॉडेल (supervised model) बनेल.
येथे मुख्य मुद्दा पुन्हा हाच आहे की, एलएलएममधील न्यूरल नेटवर्कचे पॅरामीटर्स अजिबात बदलत नाहीत. आणि फीडबॅकद्वारे मिळालेले शिक्षणाचे परिणाम संख्यात्मक मूल्ये नसून, नैसर्गिक भाषेतील वाक्यांचे संग्रह आहेत.
शिवाय, ही प्रणाली निःसंशयपणे मशीन लर्निंग प्रणाली आहे, मानवी शिक्षण प्रणाली नाही.
म्हणून, हे मशीन लर्निंगचे एक नवीन स्वरूप आहे: नैसर्गिक भाषेच्या माध्यमातून मशीन लर्निंग.
नैसर्गिक भाषा मशीन लर्निंगची ताकद
संख्यात्मक मशीन लर्निंगच्या विपरीत, नैसर्गिक भाषा शिक्षणामध्ये अनेक फायदे आहेत.
एका शब्दात सांगायचे तर, त्याचे मुख्य वैशिष्ट्य म्हणजे त्याची प्रचंड शिक्षण कार्यक्षमता (learning efficiency).
संख्यात्मक मशीन लर्निंगला सामान्यतः मोठ्या प्रमाणात प्रशिक्षण डेटा आणि पुनरावृत्तीने शिकणे आवश्यक असते. प्रशिक्षण डेटाची पूर्व-प्रक्रिया (pre-processing) देखील आवश्यक असते.
मोठ्या प्रमाणात प्रशिक्षण डेटा आवश्यक असतो कारण ज्या वैशिष्ट्यांचे (features) शिक्षण घ्यायचे आहे ते एकाच डेटामध्ये समाविष्ट नसतात, परंतु मोठ्या प्रमाणात डेटामध्ये वितरित केलेले असतात.
या कारणास्तव, खऱ्या अर्थाने अपेक्षित असलेल्या वैशिष्ट्यांच्या (features) आयामाच्या (dimension) वर्गाच्या श्रेणीतील प्रशिक्षण डेटा आवश्यक असतो.
पुनरावृत्तीने शिकणे आवश्यक असते कारण, न्यूरल नेटवर्कचे पॅरामीटर्स स्थानिक ऑप्टिमामध्ये (local optima) न पडता योग्यरित्या शिकले जातील याची खात्री करण्यासाठी, एका फीडबॅक लूपमधील पॅरामीटर्समधील बदल कमी असावा लागतो.
प्रशिक्षण डेटाची पूर्व-प्रक्रिया, जसे की सामान्यीकरण (normalization) आणि एज एक्सट्रॅक्शन (edge extraction), खऱ्या अर्थाने अपेक्षित वैशिष्ट्ये (features) ठळक करण्यासाठी आवश्यक असते. या पूर्व-प्रक्रियेसाठी देखील खूप प्रयत्न लागतात.
उदाहरणार्थ, जर प्रशासकीय आणि सामान्य व्यवहार विभागांमधील कामांची विभागणी पारंपरिक न्यूरल नेटवर्क वापरून शिकायची असेल आणि त्याची वैशिष्ट्ये 50-आयामी (50-dimensional) असतील, तर किमान 1000 किंवा त्याहून अधिक प्रशिक्षण डेटा पॉइंट्सची आवश्यकता असेल. याव्यतिरिक्त, पुरेसे शिक्षण अचूकता (learning accuracy) मिळवण्यासाठी या 1000+ डेटा पॉइंट्समधून सुमारे 100 वेळा पुनरावृत्ती करावी लागू शकते.
शिवाय, जर या 1000 डेटा पॉइंट्समध्ये अनावश्यक शब्द, शब्दांच्या स्पेलिंगमधील भिन्नता, किंवा विविध शब्दरचना आणि वाक्यरचना (syntaxes) असतील, तर शिक्षण कार्यक्षमता कमी होईल, किंवा असंबंधित वैशिष्ट्ये (irrelevant features) शिकली जातील.
म्हणून, अनावश्यक शब्द काढून टाकण्यासाठी, भिन्नता दूर करण्यासाठी शब्दसंग्रह प्रमाणित करण्यासाठी (standardize vocabulary), आणि शब्दरचना व वाक्यरचना एकरूप करण्यासाठी पूर्व-प्रक्रिया (pre-processing) अपरिहार्य आहे.
दुसरीकडे, नैसर्गिक भाषा मशीन लर्निंगला कमी प्रशिक्षण डेटा लागतो, त्याच प्रशिक्षण डेटामध्ये पुनरावृत्तीची आवश्यकता नसते, आणि अनेक प्रकरणांमध्ये, पूर्व-प्रक्रियेची आवश्यकता नसते.
जर प्रशासकीय आणि सामान्य व्यवहार विभागांमधील कामांच्या विभागणीची वैशिष्ट्ये 50-आयामी (50-dimensional) असतील, तर प्रत्येक आयामाला (dimension) संबंधित 50 माहितीचे तुकडे (pieces of information) पुरेसे असतात.
शिवाय, याचा अर्थ असा नाही की 50 स्वतंत्र वाक्यांची आवश्यकता आहे.
"A, B, C, आणि D शी संबंधित कर्तव्ये प्रशासकीय विभागाद्वारे हाताळली जातात" असे एकच वाक्य चार आयामांसाठी (dimensions) माहिती समाविष्ट करू शकते.
याव्यतिरिक्त, भाषेचे अमूर्तीकरण (abstracting language) करून, अनेक आयामांमधून (dimensions) माहिती एकत्रित केली जाऊ शकते. "इमारतीचे उपभोग्य वस्तू आणि उपकरणांची देखभाल प्रशासकीय विभागाची जबाबदारी आहे" असे एकच वाक्य बल्ब बदलणे आणि स्वयंचलित दरवाजातील बिघाड यासह विस्तृत आयामांवरील माहिती एकत्रित करते.
हे अमूर्तीकरण (abstraction) एलएलएमच्या पूर्व-प्रशिक्षित ज्ञान आणि तर्कक्षमतेचा (reasoning capabilities) लाभ घेते, ज्यामुळे आवश्यक प्रशिक्षण डेटाची मात्रा कमी होते.
आणि, मुळात, नैसर्गिक भाषा शिक्षणाला पुनरावृत्तीने शिकण्याची (iterative learning) आवश्यकता नसते. एकदा उपरोक्त वाक्य ज्ञानकोशात (knowledge base) जोडले की, शिक्षण पूर्ण होते.
याव्यतिरिक्त, ज्ञानाच्या पूर्व-प्रक्रियेची (pre-processing) आवश्यकता नसते. प्रशासकीय किंवा सामान्य व्यवहार विभागांचे वर्णन इतर विविध वाक्यांमध्ये मिसळलेले असले तरीही, ते ज्ञान म्हणून वापरले जाऊ शकते.
पर्यायाने, कच्चा डेटा (raw data), जसे की मागील उदाहरणातील चौकशा आणि नेमणुकीच्या नोंदी (logs), पूर्व-प्रक्रिया न करता त्वरित प्रशिक्षण डेटा म्हणून वापरल्या जाऊ शकतात.
अशा प्रकारे, नैसर्गिक भाषा मशीन लर्निंग संख्यात्मक मशीन लर्निंगपेक्षा कितीतरी अधिक कार्यक्षमतेने शिकू शकते.
निष्कर्ष
संगणकांच्या उच्च-गती संख्यात्मक गणना क्षमतेच्या तुलनेत, मोठ्या भाषा मॉडेल्सची नैसर्गिक भाषा प्रक्रिया क्षमता बरीच कमी आहे.
तथापि, संख्यात्मक मशीन लर्निंगच्या तुलनेत नैसर्गिक भाषा मशीन लर्निंग अधिक कार्यक्षम शिक्षण प्रदान करते.
ही कार्यक्षमता उच्च-गती संख्यात्मक गणना क्षमता आणि कमी नैसर्गिक भाषा प्रक्रिया क्षमता यांच्यातील अंतर फार मोठ्या प्रमाणात भरून काढते.
शिवाय, मोठ्या भाषा मॉडेल्सनी, ज्यांनी संख्यात्मक शिक्षणाद्वारे आश्चर्यकारक प्रगती केली आहे, त्या साध्या स्केल-अपद्वारे (scaling up) क्षमता सुधारण्यात मर्यादेपर्यंत पोहोचत असल्याचे स्केलिंग नियमांनुसार (scaling laws) दिसून येते.
अशा स्थितीत, नैसर्गिक भाषा मशीन लर्निंगद्वारे क्षमता सुधारण्यावर लक्ष केंद्रित होण्याची दाट शक्यता आहे.