पारंपारिक यंत्र शिक्षण अशा प्रतिमानानुसार कार्य करते जिथे संगणक, जे संख्यात्मक गणनेत निपुण आहेत, संख्यात्मक डेटा वापरून शिकतात आणि संख्यात्मक पॅरामीटर्स प्राप्त करतात.
तथापि, मानव केवळ संख्यात्मक यंत्रणांद्वारेच नव्हे, तर भाषेच्या माध्यमातूनही शिकू शकतात. आपण अनुभव शब्दांमध्ये संघटित करतो आणि नोंदवतो, आणि नंतर ते शब्द आठवून, वाचून आणि त्यांचा उपयोग करून शिकतो.
मोठे भाषा मॉडेल (एलएलएम) त्याचप्रमाणे ज्ञान शब्दांमध्ये वर्णन करू शकतात आणि शब्द वाचून ज्ञानाचा उपयोग करू शकतात.
एलएलएमचा नैसर्गिक भाषा प्रोसेसर म्हणून उपयोग करून, केवळ संख्यात्मक-आधारित यंत्र शिक्षणाऐवजी, नैसर्गिक भाषा-आधारित यंत्र शिक्षण शक्य होते.
या कारणास्तव, एलएलएमच्या आगमनाने नैसर्गिक भाषा यंत्र शिक्षण नावाचे एक नवीन क्षेत्र उघडले आहे.
एलएलएमचे पूर्व-प्रशिक्षण हे पारंपारिक संख्यात्मक यंत्र शिक्षणाचे एक स्वरूप आहे. येथे चर्चा केलेले नैसर्गिक भाषा यंत्र शिक्षण हे पूर्व-प्रशिक्षित एलएलएमचा उपयोग करणाऱ्या एका नवीन प्रकारच्या यंत्र शिक्षणाचा संदर्भ देते.
नैसर्गिक भाषा यंत्र शिक्षणाचे मूलभूत मॉडेल
नैसर्गिक भाषा यंत्र शिक्षणामध्ये पारंपरिक संख्यात्मक यंत्र शिक्षणासारखे काही पैलू आहेत, तसेच पूर्णपणे भिन्न पैलू देखील आहेत.
नैसर्गिक भाषा यंत्र शिक्षणाची संकल्पना प्रथम समजून घेण्यासाठी, आपण पारंपरिक संख्यात्मक यंत्र शिक्षणासारख्या भागांवर लक्ष केंद्रित करणारे एक मूलभूत मॉडेल वर्णन करूया.
येथून पुढे, पूर्व-प्रशिक्षित मोठ्या भाषा मॉडेलला (Large Language Model) एलएलएम (LLM) असे संबोधले जाईल. लक्षात घ्या की या शिक्षण प्रक्रियेदरम्यान एलएलएमचे पॅरामीटर्स अजिबात बदलत नाहीत.
हे मूलभूत मॉडेल वर्गीकरण (classification) समस्यांना लक्ष्य करणारे एक पर्यवेक्षित शिक्षण (supervised learning) मॉडेल आहे.
शिक्षण डेटासाठी, इनपुट वाक्ये आणि त्यांच्या वर्गीकरणाच्या अनेक जोड्या योग्य उत्तरे म्हणून तयार केल्या जातात.
उदाहरणार्थ, समजा एखाद्या कंपनीत सामान्य प्रशासन विभाग (General Affairs Department) आणि प्रशासकीय व्यवहार विभाग (Administrative Affairs Department) आहेत.
या दोन विभागांची भूमिका वेगळी आहे. "ऑफिसचा बल्ब फ्यूज झाला आहे," "मी माझे प्रवेशपत्र विसरलो," किंवा "मला मुख्यालयातील मुख्य सभागृह बुक करायचे आहे," यांसारख्या इनपुट वाक्यांसाठी, वर्गीकरण दर्शवते की सामान्य प्रशासन विभाग किंवा प्रशासकीय व्यवहार विभागापैकी कोणता विभाग जबाबदार आहे.
या प्रशिक्षण डेटामधून, केवळ इनपुट वाक्ये काढली जातात आणि एलएलएममध्ये फीड केली जातात.
येथे, आपण हेतुपुरस्सर सिस्टम प्रॉम्प्टद्वारे प्रतिसादावर मर्यादा घालतो, जसे की, "कृपया या चौकशीसाठी जबाबदार विभाग सामान्य प्रशासन विभाग आहे की प्रशासकीय व्यवहार विभाग आहे ते सांगा. तुमच्या उत्तरात 'सामान्य प्रशासन विभाग' किंवा 'प्रशासकीय व्यवहार विभाग' व्यतिरिक्त इतर कोणतेही वर्ण समाविष्ट करू नका."
सुरुवातीला, एलएलएम या कंपनीबद्दल काहीही माहिती नसताना प्रतिसाद तयार करते. स्वाभाविकपणे, ते चुकीचे असू शकते किंवा कधीकधी योगायोगाने बरोबरही असू शकते.
प्रत्येक प्रतिसादासाठी, एक शिक्षण प्रणाली ते बरोबर आहे की चुकीचे हे ठरवते. त्यानंतर, इनपुट वाक्य, एलएलएमचा प्रतिसाद आणि निर्णयाचा परिणाम यांचे संयोजन ज्ञान आधारामध्ये (knowledge base) जतन केले जाते.
ही प्रक्रिया प्रशिक्षण डेटाच्या सुमारे अर्ध्या भागासाठी पुनरावृत्त केली जाते.
प्रशिक्षण डेटाच्या उर्वरित अर्ध्या भागासाठी, ज्ञान आधारामध्ये रेकॉर्ड केलेली सर्व माहिती एलएलएमसाठी सिस्टम प्रॉम्प्टमध्ये जोडली जाते आणि तीच प्रक्रिया केली जाते.
या टप्प्यावर, ज्ञान आधारामध्ये या कंपनीच्या सामान्य प्रशासन आणि प्रशासकीय व्यवहार विभागांमधील कामांच्या वाटणीबद्दल माहिती असते, त्यामुळे पहिल्या अर्ध्या डेटापेक्षा योग्य उत्तराची शक्यता जास्त असावी.
अशा प्रकारे, एलएलएम आणि ज्ञान आधार एकत्र करणारी प्रणाली कंपनीच्या सामान्य प्रशासन आणि प्रशासकीय व्यवहार विभागांमधील कामांची वाटणी शिकू शकते.
शिक्षणाची यंत्रणा पारंपरिक संख्यात्मक यंत्र शिक्षणासारखीच आहे. फरक एवढाच आहे की शिक्षणाचे परिणाम एलएलएममधील न्यूरल नेटवर्कच्या पॅरामीटर्समध्ये नव्हे, तर ज्ञान आधारामध्ये प्रतिबिंबित होतात. शिवाय, ज्ञान आधारामध्ये संख्यात्मक मूल्यांऐवजी नैसर्गिक भाषा रेकॉर्ड केली जाते.
हे नैसर्गिक भाषा यंत्र शिक्षणाचे मूलभूत मॉडेल आहे.
मूलभूत मॉडेलची वास्तविकता
एलएलएम वापरणारे लवकरच ओळखतील की या मूलभूत मॉडेलमध्ये वास्तविकता नाही.
कारण, शिक्षण प्रणालीने योग्य/चुकीचे निर्णय ठरवण्याची झंझट घेण्याची गरज नाही; सुरुवातीपासूनच प्रशिक्षण डेटा सिस्टम प्रॉम्प्टमध्ये टाकता येतो.
तथापि, मूलभूत मॉडेल लागू करून आणि परिस्थिती थोडी बदलल्यास, त्यात वास्तविकता येते.
उदाहरणार्थ, कल्पना करा की सामान्य प्रशासन विभाग आणि प्रशासकीय व्यवहार विभागाने संयुक्तपणे एक चौकशी कक्ष तयार केला आहे, आणि एक मानव प्रत्येक येणारी चौकशी योग्य विभागाला व्यक्तिचलितपणे नियुक्त करतो.
या चौकशी आणि त्यांच्या नियुक्तीचे परिणाम ज्ञान आधारामध्ये (knowledge base) जोडण्यासाठी एक सोपी प्रणाली तयार केली जाते.
त्यानंतर, या ज्ञान आधाराचा उपयोग करून, एलएलएम मानवांकडून काम हाती घेऊ शकते आणि विभागांना नवीन चौकशी नियुक्त करू शकते.
या प्रकरणात, जर एलएलएमने प्रशासकीय व्यवहार विभागासाठी असलेली चौकशी सामान्य प्रशासन विभागाला चुकीची नियुक्त केली, तर सामान्य प्रशासन कर्मचारी ती चौकशी प्रशासकीय व्यवहार विभागाकडे पुन्हा नियुक्त करतील. ही पुन्हा नियुक्तीची माहिती देखील ज्ञान आधारामध्ये रेकॉर्ड केली जाते.
नियुक्ती नोंदी रेकॉर्ड करण्यासाठी ही सोपी यंत्रणा, एलएलएम आणि ज्ञान आधार यांच्या संयोजनाने, एक वास्तववादी पर्यवेक्षित नैसर्गिक भाषा यंत्र शिक्षण मॉडेल तयार होईल.
येथे महत्त्वाचा मुद्दा पुन्हा सांगायचा झाल्यास, एलएलएममधील न्यूरल नेटवर्कचे पॅरामीटर्स अजिबात बदलत नाहीत. शिवाय, फीडबॅक लर्निंगचा परिणाम हा नैसर्गिक भाषेतील वाक्यांचा संग्रह असतो, संख्यात्मक मूल्ये नसतात.
आणि, यात शंका नाही की या प्रणालीमध्ये यंत्र शिक्षण समाविष्ट आहे, मानवी शिक्षण नाही.
म्हणूनच, हे यंत्र शिक्षणाचे एक नवीन स्वरूप आहे: नैसर्गिक भाषा यंत्र शिक्षण.
नैसर्गिक भाषा यंत्र शिक्षणाचे सामर्थ्य
संख्यात्मक यंत्र शिक्षणापेक्षा नैसर्गिक भाषा शिकण्याचे अनेक फायदे आहेत.
थोडक्यात सांगायचे झाल्यास, त्याचे वैशिष्ट्य म्हणजे प्रचंड उच्च शिक्षण कार्यक्षमता.
संख्यात्मक यंत्र शिक्षणासाठी सामान्यतः मोठ्या प्रमाणात प्रशिक्षण डेटा आणि पुनरावृत्तीने शिक्षण आवश्यक असते. शिवाय, प्रशिक्षण डेटाची पूर्व-प्रक्रिया (pre-processing) देखील आवश्यक असते.
मोठ्या प्रमाणात प्रशिक्षण डेटाची आवश्यकता असते कारण शिकायची वैशिष्ट्ये एकाच डेटामध्ये नसतात, तर मोठ्या प्रमाणात डेटामध्ये वितरित केलेली असतात.
या कारणास्तव, खऱ्या अर्थाने अपेक्षित असलेल्या वैशिष्ट्यांच्या आयामाच्या वर्गाच्या (square of the dimensionality) क्रमाचे प्रशिक्षण डेटा आवश्यक असते.
पुनरावृत्तीने शिक्षण आवश्यक असते कारण न्यूरल नेटवर्कचे पॅरामीटर्स स्थानिक मिनिमामधून (local minima) बाहेर पडून योग्यरित्या शिकले जातील याची खात्री करण्यासाठी, प्रत्येक फीडबॅकसह पॅरामीटर बदल कमी ठेवणे आवश्यक असते.
प्रशिक्षण डेटाची पूर्व-प्रक्रिया, जसे की सामान्यीकरण (normalization) आणि एज एक्सट्रॅक्शन (edge extraction), खऱ्या अर्थाने अपेक्षित असलेल्या वैशिष्ट्यांना अधोरेखित करण्यासाठी आवश्यक असते. या पूर्व-प्रक्रियेसाठी देखील लक्षणीय प्रयत्न लागतात.
उदाहरणार्थ, जर प्रशासकीय व्यवहार विभाग आणि सामान्य प्रशासन विभागामधील कामांची विभागणी पारंपरिक न्यूरल नेटवर्क वापरून शिकायची असेल आणि त्याची वैशिष्ट्ये ५०-आयामी असतील, तर कमीतकमी सुमारे १,००० किंवा त्याहून अधिक प्रशिक्षण डेटा उदाहरणे आवश्यक असतील. याव्यतिरिक्त, योग्य शिक्षण अचूकता (accuracy) प्राप्त करण्यासाठी या १,०००+ डेटा उदाहरणांना सुमारे १०० वेळा पुनरावृत्तीने शिकावे लागू शकते.
शिवाय, जर या १,००० प्रशिक्षण डेटा उदाहरणांमध्ये अनावश्यक शब्द, शब्दलेखनातील भिन्नता किंवा विविध शब्दरचना आणि वाक्यरचना असतील, तर शिक्षण कार्यक्षमता कमी होते आणि असंबंधित वैशिष्ट्ये शिकली जाऊ शकतात.
म्हणून, अनावश्यक शब्द काढून टाकण्यासाठी, भिन्नता दूर करण्यासाठी शब्दावलीचे मानकीकरण करण्यासाठी आणि शब्दरचना व वाक्यरचना एकरूप करण्यासाठी पूर्व-प्रक्रिया अपरिहार्य आहे.
याच्या उलट, नैसर्गिक भाषा यंत्र शिक्षणासाठी कमी प्रशिक्षण डेटाची आवश्यकता असते, त्याच प्रशिक्षण डेटामधून पुनरावृत्तीची आवश्यकता नसते आणि अनेकदा पूर्व-प्रक्रिया देखील आवश्यक नसते.
जर प्रशासकीय व्यवहार विभाग आणि सामान्य प्रशासन विभागामधील कामांच्या विभागणीची वैशिष्ट्ये ५०-आयामी असतील, तर प्रत्येक आयामाला संबंधित ५० माहिती पुरेशी आहे.
शिवाय, याचा अर्थ असा नाही की ५० वेगळी वाक्ये आवश्यक आहेत.
"ए, बी, सी आणि डी शी संबंधित कामे प्रशासकीय व्यवहार विभागाद्वारे हाताळली जातात" असे एकच वाक्य माहितीच्या चार आयामांना समाविष्ट करू शकते.
शिवाय, भाषेचे अमूर्तकरण करून, अनेक आयामांमधून माहिती एकत्रित केली जाऊ शकते. "इमारतीतील उपभोग्य वस्तू आणि सुविधांची देखभाल प्रशासकीय व्यवहार विभागाची जबाबदारी आहे" असे वाक्य बल्ब बदलणे आणि स्वयंचलित दरवाजातील बिघाड यासह मोठ्या प्रमाणात आयामी माहिती एकत्रित करते.
हे अमूर्तकरण एलएलएमच्या पूर्व-प्रशिक्षित ज्ञान आणि तार्किक क्षमतांचा लाभ घेऊन प्रशिक्षण डेटा कमी करते असे म्हणता येईल.
आणि, मुळात, नैसर्गिक भाषा शिक्षणासाठी पुनरावृत्तीच्या शिक्षणाची आवश्यकता नसते. एकदा उपरोक्त वाक्य ज्ञान आधारामध्ये जोडले की, शिक्षण पूर्ण होते.
याव्यतिरिक्त, ज्ञानाची पूर्व-प्रक्रिया अनावश्यक आहे. प्रशासकीय व्यवहार विभाग किंवा सामान्य प्रशासन विभागाचे स्पष्टीकरण विविध ग्रंथांमध्ये मिसळलेले असले तरी, ते अजूनही ज्ञान म्हणून वापरले जाऊ शकते.
किंवा, मागील उदाहरणाप्रमाणे, चौकशी आणि नियुक्ती नोंदीसारखा कच्चा डेटा पूर्व-प्रक्रियेविना त्वरित प्रशिक्षण डेटा म्हणून वापरला जाऊ शकतो.
अशा प्रकारे, नैसर्गिक भाषा यंत्र शिक्षण संख्यात्मक यंत्र शिक्षणापेक्षा कितीतरी अधिक कार्यक्षमतेने शिकू शकते.
निष्कर्ष
संगणकांच्या उच्च-गती संख्यात्मक संगणन क्षमतेच्या तुलनेत, मोठ्या भाषा मॉडेल्सची नैसर्गिक भाषा प्रक्रिया क्षमता बऱ्यापैकी मंद आहे.
तथापि, नैसर्गिक भाषा यंत्र शिक्षणामुळे कार्यक्षम शिक्षण शक्य होते, जे उच्च-गती संख्यात्मक संगणन आणि मंद नैसर्गिक भाषा प्रक्रिया यांच्यातील अंतर खूप मोठ्या प्रमाणात भरून काढते.
शिवाय, मोठ्या भाषा मॉडेल्सनी, संख्यात्मक शिक्षणाद्वारे आश्चर्यकारक प्रगती केली असली तरी, स्केलिंग नियमांनुसार, केवळ साध्या स्केलिंग-अपद्वारे कार्यक्षमतेच्या सुधारणेच्या मर्यादा गाठत असल्याचे दिसते.
अशा परिस्थितीत, नैसर्गिक भाषा यंत्र शिक्षणाद्वारे क्षमता वाढवण्यावर लक्ष केंद्रित होण्याची शक्यता खूप जास्त आहे.