પરંપરાગત મશીન લર્નિંગ એક પેરાડાઈમ (નમૂના) ની અંદર કાર્ય કરે છે જ્યાં કમ્પ્યુટર્સ, સંખ્યાત્મક ગણતરીમાં નિપુણ હોવાથી, સંખ્યાત્મક ડેટાનો ઉપયોગ કરીને શીખે છે અને પરિમાણિત (quantified) પેરામીટર્સ (માપદંડ) મેળવે છે.
જોકે, મનુષ્ય ફક્ત સંખ્યાત્મક પદ્ધતિઓ દ્વારા જ નહીં, પણ ભાષા દ્વારા પણ શીખવા સક્ષમ છે. આપણે અનુભવોને શબ્દોમાં ગોઠવીએ છીએ અને રેકોર્ડ કરીએ છીએ, અને પછી તે શબ્દોને યાદ કરીએ છીએ, વાંચીએ છીએ અને તેનો ઉપયોગ કરીએ છીએ.
લાર્જ લેંગ્વેજ મોડેલ્સ (LLMs) પણ સમાન રીતે જ્ઞાનને શબ્દોમાં વર્ણવી શકે છે અને શબ્દો વાંચીને જ્ઞાનનો ઉપયોગ કરી શકે છે.
LLMs ને કુદરતી ભાષા પ્રોસેસર તરીકે ઉપયોગ કરીને, ફક્ત સંખ્યાત્મક આધારિત મશીન લર્નિંગને બદલે કુદરતી ભાષા આધારિત મશીન લર્નિંગ શક્ય બને છે.
આ કારણોસર, LLMs ના આગમનથી એક નવું ક્ષેત્ર ખુલ્યું છે: કુદરતી ભાષા મશીન લર્નિંગ.
LLMs ની પૂર્વ-તાલીમ (pre-training) એ પરંપરાગત સંખ્યાત્મક મશીન લર્નિંગનું એક સ્વરૂપ છે. અહીં ચર્ચા કરાયેલ કુદરતી ભાષા મશીન લર્નિંગ એ એક નવા પ્રકારના મશીન લર્નિંગનો ઉલ્લેખ કરે છે જે પૂર્વ-તાલીમબદ્ધ LLMs નો ઉપયોગ કરે છે.
કુદરતી ભાષા મશીન લર્નિંગનું મૂળભૂત મોડેલ
કુદરતી ભાષા મશીન લર્નિંગ પરંપરાગત સંખ્યાત્મક મશીન લર્નિંગ જેવી જ અને સંપૂર્ણપણે અલગ પાસાઓ ધરાવે છે.
કુદરતી ભાષા મશીન લર્નિંગના ખ્યાલને સૌપ્રથમ સમજવા માટે, ચાલો આપણે પરંપરાગત સંખ્યાત્મક મશીન લર્નિંગ જેવા ભાગો પર ધ્યાન કેન્દ્રિત કરીને એક મૂળભૂત મોડેલનું વર્ણન કરીએ.
અહીંથી, પૂર્વ-તાલીમબદ્ધ લાર્જ લેંગ્વેજ મોડેલને LLM તરીકે ઓળખવામાં આવશે. નોંધ લો કે આ શીખવાની પ્રક્રિયા દરમિયાન LLM ના પેરામીટરમાં કોઈ ફેરફાર થતો નથી.
મૂળભૂત મોડેલ એક સુપરવાઇઝ્ડ લર્નિંગ મોડેલ છે, જે વર્ગીકરણની સમસ્યાઓને લક્ષ્ય બનાવે છે.
શીખવાના ડેટા માટે, ઇનપુટ વાક્યો અને તેમના વર્ગીકરણની બહુવિધ જોડીઓને સાચા જવાબો તરીકે તૈયાર કરવામાં આવે છે.
ઉદાહરણ તરીકે, ધારો કે એક કંપનીમાં જનરલ અફેર્સ વિભાગ અને એડમિનિસ્ટ્રેટિવ અફેર્સ વિભાગ છે.
આ બંને વિભાગોની ભૂમિકાઓ અલગ-અલગ છે. "ઓફિસનો લાઇટ બલ્બ બંધ છે," "હું મારું એક્સેસ કાર્ડ ભૂલી ગયો છું," અથવા "મારે મુખ્યાલય ખાતેનો મુખ્ય હોલ બુક કરવો છે" જેવા ઇનપુટ વાક્યો માટે, વર્ગીકરણ દર્શાવે છે કે કયું વિભાગ, જનરલ અફેર્સ કે એડમિનિસ્ટ્રેટિવ અફેર્સ, જવાબદાર છે.
આ તાલીમ ડેટામાંથી, ફક્ત ઇનપુટ વાક્યોને બહાર કાઢવામાં આવે છે અને LLM માં દાખલ કરવામાં આવે છે.
અહીં, આપણે ઇરાદાપૂર્વક સિસ્ટમ પ્રોમ્પ્ટ દ્વારા પ્રતિભાવને મર્યાદિત કરીએ છીએ જેમ કે, "કૃપા કરીને જણાવો કે આ પૂછપરછ માટે જવાબદાર વિભાગ જનરલ અફેર્સ છે કે એડમિનિસ્ટ્રેટિવ અફેર્સ. તમારા જવાબમાં 'જનરલ અફેર્સ' અથવા 'એડમિનિસ્ટ્રેટિવ અફેર્સ' સિવાયના કોઈ અક્ષરોનો સમાવેશ કરશો નહીં."
શરૂઆતમાં, LLM આ કંપનીના જ્ઞાન વિના પ્રતિભાવ ઉત્પન્ન કરે છે. સ્વાભાવિક રીતે, તે ખોટું હોઈ શકે છે, અથવા ક્યારેક સંયોગવશ સાચું પણ હોઈ શકે છે.
દરેક પ્રતિભાવ માટે, એક ટીચિંગ સિસ્ટમ નક્કી કરે છે કે તે સાચું છે કે ખોટું. પછી, ઇનપુટ વાક્ય, LLM નો પ્રતિભાવ અને નિર્ણયના પરિણામનું સંયોજન જ્ઞાન આધારમાં સંગ્રહિત થાય છે.
આ પ્રક્રિયા તાલીમ ડેટાના લગભગ અડધા ભાગ માટે પુનરાવર્તિત થાય છે.
તાલીમ ડેટાના બાકીના અડધા ભાગ માટે, જ્ઞાન આધારમાં નોંધાયેલ તમામ માહિતી LLM માટે સિસ્ટમ પ્રોમ્પ્ટમાં ઉમેરવામાં આવે છે, અને તે જ પ્રક્રિયા કરવામાં આવે છે.
આ સમયે, જ્ઞાન આધારમાં આ કંપનીના જનરલ અફેર્સ અને એડમિનિસ્ટ્રેટિવ અફેર્સ વિભાગો વચ્ચેની ફરજોના વિભાજન વિશેની માહિતી શામેલ છે, તેથી પ્રથમ અડધા ડેટા કરતાં સાચા જવાબની સંભાવના વધારે હોવી જોઈએ.
આ રીતે, LLM અને જ્ઞાન આધારને જોડતી સિસ્ટમ કંપનીના જનરલ અફેર્સ અને એડમિનિસ્ટ્રેટિવ અફેર્સ વિભાગો માટે ફરજોનું વિભાજન શીખી શકે છે.
શીખવાની પદ્ધતિ પોતે પરંપરાગત સંખ્યાત્મક મશીન લર્નિંગ જેવી જ છે. તફાવત એ છે કે શીખવાના પરિણામો LLM ની અંદરના ન્યુરલ નેટવર્કના પેરામીટરમાં નહીં, પરંતુ જ્ઞાન આધારમાં પ્રતિબિંબિત થાય છે. વધુમાં, જ્ઞાન આધાર સંખ્યાત્મક મૂલ્યોને બદલે કુદરતી ભાષાને રેકોર્ડ કરે છે.
આ કુદરતી ભાષા મશીન લર્નિંગનું મૂળભૂત મોડેલ છે.
મૂળભૂત મોડેલની વાસ્તવિકતા
જેઓ LLMs નો ઉપયોગ કરે છે તેઓ ઝડપથી સમજી જશે કે આ મૂળભૂત મોડેલમાં વાસ્તવિકતાનો અભાવ છે.
આ એટલા માટે છે કારણ કે સાચું/ખોટું નક્કી કરવા માટે ટીચિંગ સિસ્ટમ રાખવાની જરૂર નથી; શરૂઆતથી જ તાલીમ ડેટાને સીધો સિસ્ટમ પ્રોમ્પ્ટમાં દાખલ કરી શકાય છે.
જોકે, મૂળભૂત મોડેલને લાગુ કરીને અને દૃશ્યમાં થોડો ફેરફાર કરીને, તે વાસ્તવિકતા પ્રાપ્ત કરે છે.
ઉદાહરણ તરીકે, કલ્પના કરો કે જનરલ અફેર્સ વિભાગ અને એડમિનિસ્ટ્રેટિવ અફેર્સ વિભાગ સંયુક્ત રીતે એક પૂછપરછ ડેસ્ક બનાવે છે, અને એક માનવી દરેક આવનારી પૂછપરછને યોગ્ય વિભાગમાં મેન્યુઅલી સોંપે છે.
આ પૂછપરછો અને તેમના સોંપણીના પરિણામોને જ્ઞાન આધારમાં ઉમેરવા માટે એક સરળ સિસ્ટમ બનાવવામાં આવે છે.
પછી, આ જ્ઞાન આધારનો ઉપયોગ કરીને, LLM માનવીઓ પાસેથી કાર્યભાર સંભાળી શકે છે અને નવી પૂછપરછોને વિભાગોને સોંપી શકે છે.
આ કિસ્સામાં, જો LLM એડમિનિસ્ટ્રેટિવ અફેર્સ માટેની પૂછપરછને જનરલ અફેર્સને ખોટી રીતે સોંપે છે, તો જનરલ અફેર્સ સ્ટાફ પૂછપરછને ફરીથી એડમિનિસ્ટ્રેટિવ અફેર્સને સોંપશે. આ ફરીથી સોંપણીની માહિતી પણ જ્ઞાન આધારમાં નોંધવામાં આવે છે.
સોંપણી લોગ રેકોર્ડ કરવા માટેની આ સરળ પદ્ધતિ, LLM અને જ્ઞાન આધાર સાથે જોડાયેલી, એક વાસ્તવિક સુપરવાઇઝ્ડ કુદરતી ભાષા મશીન લર્નિંગ મોડેલ બનાવશે.
અહીં મુખ્ય મુદ્દો એ છે કે, પુનરાવર્તન કરું તો, LLM ની અંદરના ન્યુરલ નેટવર્કના પેરામીટરમાં કોઈ ફેરફાર થતો નથી. વધુમાં, પ્રતિસાદ શીખવાનું પરિણામ સંખ્યાત્મક મૂલ્યો નહીં, પરંતુ કુદરતી ભાષાના વાક્યોનો સંગ્રહ છે.
અને, કોઈ શંકા વિના, આ સિસ્ટમમાં મશીન લર્નિંગ શામેલ છે, માનવ શિક્ષણ નહીં.
તેથી, આ મશીન લર્નિંગનું એક નવું સ્વરૂપ છે: કુદરતી ભાષા મશીન લર્નિંગ.
કુદરતી ભાષા મશીન લર્નિંગની શક્તિઓ
સંખ્યાત્મક મશીન લર્નિંગથી વિપરીત, કુદરતી ભાષા શીખવાના ઘણા ફાયદા છે.
એક શબ્દમાં કહીએ તો, તેની વ્યાખ્યાયિત લાક્ષણિકતા અત્યંત ઉચ્ચ શીખવાની કાર્યક્ષમતા છે.
સંખ્યાત્મક મશીન લર્નિંગને સામાન્ય રીતે મોટી માત્રામાં તાલીમ ડેટા અને પુનરાવર્તિત શિક્ષણની જરૂર પડે છે. વધુમાં, તાલીમ ડેટાની પૂર્વ-પ્રક્રિયા પણ જરૂરી છે.
મોટી માત્રામાં તાલીમ ડેટાની જરૂર પડે છે કારણ કે શીખવા માટેની સુવિધાઓ ડેટાના એક જ ટુકડામાં સમાવિષ્ટ નથી પરંતુ ડેટાના વિશાળ જથ્થામાં વિતરિત થયેલી છે.
આ કારણોસર, ખરેખર ઇચ્છિત સુવિધાઓના પરિમાણના વર્ગના ક્રમમાં તાલીમ ડેટાની જરૂર પડે છે.
પુનરાવર્તિત શિક્ષણ જરૂરી છે તેની ખાતરી કરવા માટે કે ન્યુરલ નેટવર્કના પેરામીટર્સ સ્થાનિક લઘુત્તમમાં ફસાયા વિના યોગ્ય રીતે શીખવામાં આવે, જેમાં દરેક પ્રતિસાદ સાથે પેરામીટર ફેરફારને નાનો રાખવાની જરૂર પડે છે.
તાલીમ ડેટાની પૂર્વ-પ્રક્રિયા, જેમ કે નોર્મલાઇઝેશન અને એજ એક્સટ્રેક્શન, ખરેખર ઇચ્છિત સુવિધાઓને હાઇલાઇટ કરવા માટે જરૂરી છે. આ પૂર્વ-પ્રક્રિયામાં પણ નોંધપાત્ર પ્રયત્નોની જરૂર પડે છે.
ઉદાહરણ તરીકે, જો વહીવટી બાબતોના વિભાગ અને સામાન્ય બાબતોના વિભાગ વચ્ચે ફરજોનું વિભાજન પરંપરાગત ન્યુરલ નેટવર્કનો ઉપયોગ કરીને શીખવાનું હોય, અને તેની સુવિધાઓ 50-પરિમાણીય હોય, તો ઓછામાં ઓછા આશરે 1,000 કે તેથી વધુ તાલીમ ડેટા દાખલાઓની જરૂર પડશે. આ ઉપરાંત, આ 1,000+ ડેટા દાખલાઓને યોગ્ય શીખવાની ચોકસાઈ પ્રાપ્ત કરવા માટે લગભગ 100 વખત પુનરાવર્તિત રીતે શીખવાની જરૂર પડી શકે છે.
વધુમાં, જો 1,000 તાલીમ ડેટા દાખલાઓના આ સમૂહમાં વધારાના શબ્દો, જોડણીમાં ભિન્નતાઓ અથવા વિવિધ શબ્દ ક્રમો અને વાક્ય રચનાઓ શામેલ હોય, તો શીખવાની કાર્યક્ષમતા ઘટે છે, અને અસંબંધિત સુવિધાઓ શીખી શકાય છે.
તેથી, વધારાના શબ્દો દૂર કરવા, ભિન્નતાઓને દૂર કરવા માટે શબ્દાવલિને પ્રમાણિત કરવા, અને શબ્દ ક્રમ અને વાક્ય રચનાને એકીકૃત કરવા માટેની પૂર્વ-પ્રક્રિયા અનિવાર્ય છે.
તેનાથી વિપરીત, કુદરતી ભાષા મશીન લર્નિંગને ઓછા તાલીમ ડેટાની જરૂર પડે છે, તે જ તાલીમ ડેટા સાથે કોઈ પુનરાવર્તનની જરૂર પડતી નથી, અને ઘણીવાર કોઈ પૂર્વ-પ્રક્રિયાની જરૂર પડતી નથી.
જો વહીવટી બાબતોના વિભાગ અને સામાન્ય બાબતોના વિભાગ વચ્ચે ફરજોના વિભાજન માટેની સુવિધાઓ 50-પરિમાણીય હોય, તો દરેક પરિમાણને અનુરૂપ 50 માહિતીના ટુકડા પૂરતા છે.
વળી, આનો અર્થ એ નથી કે 50 અલગ વાક્યોની જરૂર છે.
"A, B, C, અને D સંબંધિત ફરજો વહીવટી બાબતોના વિભાગ દ્વારા સંભાળવામાં આવે છે" જેવું એક વાક્ય માહિતીના ચાર પરિમાણોને સમાવી શકે છે.
વધુમાં, ભાષાનું અમૂર્તકરણ કરીને, બહુવિધ પરિમાણોમાંથી માહિતીને એકત્રિત કરી શકાય છે. "બિલ્ડિંગના ઉપભોક્તા વસ્તુઓ અને સુવિધાઓની જાળવણી વહીવટી બાબતોના વિભાગની જવાબદારી છે" જેવું એક વાક્ય લાઇટ બલ્બ બદલવા અને સ્વચાલિત દરવાજાની ખામી સહિતની વિશાળ શ્રેણીની પરિમાણીય માહિતીને એકત્રિત કરે છે.
આ અમૂર્તકરણને LLM ના પૂર્વ-તાલીમબદ્ધ જ્ઞાન અને તર્ક ક્ષમતાઓનો લાભ ઉઠાવીને તાલીમ ડેટા ઘટાડવામાં મદદરૂપ કહી શકાય.
અને, મૂળભૂત રીતે, કુદરતી ભાષા શિક્ષણને પુનરાવર્તિત શિક્ષણની જરૂર પડતી નથી. એકવાર ઉપરોક્ત વાક્ય જ્ઞાન આધારમાં ઉમેરવામાં આવે, પછી શિક્ષણ પૂર્ણ થાય છે.
વધુમાં, જ્ઞાનની પૂર્વ-પ્રક્રિયા બિનજરૂરી છે. જો વહીવટી બાબતોના વિભાગ અથવા સામાન્ય બાબતોના વિભાગના ખુલાસા વિવિધ લખાણોમાં ભળી ગયેલા હોય તો પણ, તેનો જ્ઞાન તરીકે ઉપયોગ કરી શકાય છે.
અથવા, પાછલા ઉદાહરણની જેમ, પૂછપરછ અને સોંપણી રેકોર્ડ જેવા કાચા ડેટાનો પૂર્વ-પ્રક્રિયા વિના તાલીમ ડેટા તરીકે તરત જ ઉપયોગ કરી શકાય છે.
આમ, કુદરતી ભાષા મશીન લર્નિંગ સંખ્યાત્મક મશીન લર્નિંગ કરતાં ઘણી વધુ કાર્યક્ષમ રીતે શીખી શકે છે.
નિષ્કર્ષ
કમ્પ્યુટર્સની ઉચ્ચ-સ્પીડ સંખ્યાત્મક ગણતરી ક્ષમતાઓની સરખામણીમાં, લાર્જ લેંગ્વેજ મોડેલ્સની કુદરતી ભાષા પ્રક્રિયા ક્ષમતા એકદમ ધીમી હોય છે.
જોકે, કુદરતી ભાષા મશીન લર્નિંગ કાર્યક્ષમ શિક્ષણને શક્ય બનાવે છે, જે ઉચ્ચ-સ્પીડ સંખ્યાત્મક ગણતરી અને ધીમી કુદરતી ભાષા પ્રક્રિયા વચ્ચેના અંતરને નોંધપાત્ર રીતે વટાવી જાય છે.
વધુમાં, લાર્જ લેંગ્વેજ મોડેલ્સ, જેણે સંખ્યાત્મક શિક્ષણ દ્વારા આશ્ચર્યજનક પ્રગતિ કરી છે, તે સ્કેલિંગ કાયદાઓ અનુસાર, સરળ સ્કેલિંગ અપ દ્વારા પ્રદર્શન સુધારણાની મર્યાદાઓ સુધી પહોંચી રહ્યા હોય તેવું લાગે છે.
આવા સંજોગોમાં, કુદરતી ભાષા મશીન લર્નિંગ દ્વારા ક્ષમતાઓમાં વધારો કરવા તરફ ધ્યાન કેન્દ્રિત થવાની સંભાવના ખૂબ ઊંચી છે.