કુદરતી ભાષા મશીન લર્નિંગ | કાતોશીના સંશોધન નોંધો

પરંપરાગત મશીન લર્નિંગ એક એવા સિદ્ધાંત પર કાર્ય કરે છે જ્યાં કમ્પ્યુટર્સ, જે સંખ્યાત્મક ગણતરીમાં નિપુણ હોય છે, સંખ્યાત્મક ડેટામાંથી શીખે છે અને સંખ્યાત્મક પરિમાણો પ્રાપ્ત કરે છે.

બીજી બાજુ, આપણે ફક્ત સંખ્યાત્મક પદ્ધતિઓ દ્વારા જ નહીં, પણ ભાષા દ્વારા પણ શીખવા સક્ષમ છીએ. આપણે અનુભવોને શબ્દો તરીકે ગોઠવીએ છીએ અને રેકોર્ડ કરીએ છીએ, પછી તે શબ્દોને યાદ કરીએ છીએ અથવા વાંચીએ છીએ અને તેનો ઉપયોગ કરીએ છીએ.

મોટા ભાષા મોડલ (Large Language Models) પણ તેવી જ રીતે શબ્દોનો ઉપયોગ કરીને જ્ઞાનનું વર્ણન કરી શકે છે અને શબ્દોને વાંચીને તેનો ઉપયોગ કરી શકે છે.

મોટા ભાષા મોડલ, જે કુદરતી ભાષા પ્રોસેસર્સ છે, તેનો લાભ લઈને, ફક્ત સંખ્યાત્મક-આધારિત મશીન લર્નિંગને બદલે, કુદરતી ભાષા-આધારિત મશીન લર્નિંગ શક્ય બને છે.

પરિણામે, મોટા ભાષા મોડલના આગમનથી એક નવું ક્ષેત્ર ખુલ્યું છે: કુદરતી ભાષા મશીન લર્નિંગ.

મોટા ભાષા મોડલનું પ્રી-ટ્રેનિંગ પરંપરાગત સંખ્યાત્મક મશીન લર્નિંગ છે. અહીં વર્ણવેલ કુદરતી ભાષા મશીન લર્નિંગ એક નવા પ્રકારના મશીન લર્નિંગનો ઉલ્લેખ કરે છે જે પ્રી-ટ્રેઇન્ડ મોટા ભાષા મોડલનો ઉપયોગ કરે છે.

કુદરતી ભાષા મશીન લર્નિંગનું મૂળભૂત મોડેલ

કુદરતી ભાષા મશીન લર્નિંગમાં એવા પાસાં છે જે પરંપરાગત સંખ્યાત્મક મશીન લર્નિંગ જેવા જ છે, અને કેટલાક પાસાં સંપૂર્ણપણે અલગ પણ છે.

પ્રથમ, કુદરતી ભાષા મશીન લર્નિંગની કલ્પનાને સમજવા માટે, આપણે પરંપરાગત સંખ્યાત્મક મશીન લર્નિંગ જેવા ભાગોને મૂળભૂત મોડેલ તરીકે સમજાવીશું.

અહીંથી, આપણે પ્રી-ટ્રેઈન કરેલા મોટા ભાષા મોડેલને LLM તરીકે ઓળખીશું. કૃપા કરીને નોંધ લો કે આ શીખવાની પ્રક્રિયા દરમિયાન LLM ના પરિમાણોમાં બિલકુલ ફેરફાર થતો નથી.

મૂળભૂત મોડેલ એ સુપરવાઇઝ્ડ લર્નિંગ છે, જે વર્ગીકરણ સમસ્યાને લક્ષ્ય બનાવે છે.

પ્રશિક્ષણ ડેટા માટે સાચા જવાબો તરીકે ઇનપુટ વાક્યો અને તેમના વર્ગીકરણની બહુવિધ જોડીઓ તૈયાર કરવામાં આવે છે.

ઉદાહરણ તરીકે, ચાલો કહીએ કે એક કંપનીમાં જનરલ અફેર્સ ડિપાર્ટમેન્ટ અને એડમિનિસ્ટ્રેટિવ અફેર્સ ડિપાર્ટમેન્ટ છે.

આ બે વિભાગોમાં કાર્યોનું વિભાજન છે. "ઓફિસનો લાઇટ બલ્બ બંધ છે," "હું મારું એક્સેસ કાર્ડ ભૂલી ગયો," અથવા "હું હેડક્વાર્ટર ખાતેનો મુખ્ય હોલ રિઝર્વ કરવા માંગુ છું" જેવા ઇનપુટ વાક્યો માટે, વર્ગીકરણ સૂચવે છે કે જનરલ અફેર્સ ડિપાર્ટમેન્ટ કે એડમિનિસ્ટ્રેટિવ અફેર્સ ડિપાર્ટમેન્ટ જવાબદાર છે.

આ પ્રશિક્ષણ ડેટામાંથી, ફક્ત ઇનપુટ વાક્યો કાઢવામાં આવે છે અને LLM માં દાખલ કરવામાં આવે છે.

અહીં, સિસ્ટમ પ્રોમ્પ્ટ તરીકે, આપણે ઇરાદાપૂર્વક જવાબને મર્યાદિત કરીએ છીએ અને કહીએ છીએ કે, "કૃપા કરીને જવાબ આપો કે આ પૂછપરછ માટે કયું વિભાગ, જનરલ અફેર્સ કે એડમિનિસ્ટ્રેટિવ અફેર્સ, જવાબદાર છે. તમારા જવાબમાં 'જનરલ અફેર્સ' અથવા 'એડમિનિસ્ટ્રેટિવ અફેર્સ' સિવાયના કોઈપણ અક્ષરોનો સમાવેશ કરશો નહીં."

શરૂઆતમાં, LLM આ કંપનીના કોઈપણ જ્ઞાન વિના જવાબો બનાવશે. સ્વાભાવિક રીતે, કેટલાક જવાબો ખોટા હશે, જ્યારે કેટલાક સંયોગથી સાચા પણ હોઈ શકે છે.

દરેક જવાબ માટે, શિક્ષક સિસ્ટમ નક્કી કરે છે કે તે સાચો છે કે ખોટો. પછી, ઇનપુટ વાક્ય, LLM નો જવાબ અને નિર્ણય પરિણામનું સંયોજન જ્ઞાન આધારમાં સાચવવામાં આવે છે.

આ પ્રક્રિયા પ્રશિક્ષણ ડેટાના લગભગ અડધા ભાગ માટે પુનરાવર્તિત થાય છે.

પ્રશિક્ષણ ડેટાના બાકીના અડધા ભાગ માટે, તે જ પ્રક્રિયા કરવામાં આવે છે, પરંતુ આ વખતે જ્ઞાન આધારમાં રેકોર્ડ કરવામાં આવેલી બધી માહિતી LLM માટે સિસ્ટમ પ્રોમ્પ્ટમાં ઉમેરવામાં આવે છે.

આ સમયે, જ્ઞાન આધારમાં આ કંપનીના જનરલ અફેર્સ અને એડમિનિસ્ટ્રેટિવ અફેર્સ વિભાગો વચ્ચેના કાર્યોના વિભાજન વિશેની માહિતી શામેલ છે, તેથી પ્રથમ અડધા ડેટા કરતાં સાચા જવાબો મેળવવાની સંભાવના વધારે હોવી જોઈએ.

આ રીતે, LLM અને જ્ઞાન આધારને જોડતી સિસ્ટમ આ કંપનીના જનરલ અફેર્સ અને એડમિનિસ્ટ્રેટિવ અફેર્સ વિભાગો વચ્ચેના કાર્યોનું વિભાજન શીખી શકે છે.

શીખવાની પદ્ધતિ પોતે પરંપરાગત સંખ્યાત્મક મશીન લર્નિંગ જેવી જ છે. તફાવત એ છે કે શીખવાના પરિણામો LLM ની અંદરના ન્યુરલ નેટવર્કના પરિમાણોમાં નહીં, પરંતુ જ્ઞાન આધારમાં પ્રતિબિંબિત થાય છે. અને, જ્ઞાન આધારમાં સંખ્યાઓ નહીં, પરંતુ કુદરતી ભાષા રેકોર્ડ કરવામાં આવે છે.

આ કુદરતી ભાષા મશીન લર્નિંગનું મૂળભૂત મોડેલ છે.

મૂળભૂત મોડેલની વાસ્તવિકતા

જે કોઈ પણ LLM નો ઉપયોગ કરી રહ્યું છે તે તરત જ સમજી જશે કે આ મૂળભૂત મોડેલમાં વાસ્તવિકતાનો અભાવ છે.

આ એટલા માટે છે કારણ કે, શિક્ષક પ્રણાલી દ્વારા સાચા અને ખોટા જવાબો નક્કી કરવાની મુશ્કેલી લેવાને બદલે, શરૂઆતથી જ તાલીમ ડેટાને સીધો સિસ્ટમ પ્રોમ્પ્ટમાં દાખલ કરી શકાય છે.

જોકે, મૂળભૂત મોડેલ લાગુ કરીને અને દૃશ્યમાં થોડો ફેરફાર કરીને, તેમાં વાસ્તવિકતા આવે છે.

ઉદાહરણ તરીકે, ધારો કે જનરલ અફેર્સ અને એડમિનિસ્ટ્રેટિવ અફેર્સ વિભાગો સહયોગથી એક પૂછપરછ ડેસ્ક સ્થાપિત કરે છે, અને મનુષ્યો વ્યક્તિગત રીતે આવતી પૂછપરછને યોગ્ય વિભાગમાં વર્ગીકૃત કરે છે.

આ પૂછપરછ અને તેમના રૂટીંગ પરિણામોને જ્ઞાન આધારમાં ઉમેરવા માટે એક સરળ સિસ્ટમ બનાવી શકાય છે.

પછી, આ જ્ઞાન આધારનો ઉપયોગ કરીને, LLM નવા પૂછપરછને વિભાગોમાં રૂટ કરવામાં મનુષ્યો પાસેથી કાર્યભાર સંભાળી શકે છે.

આ કિસ્સામાં, જો LLM એડમિનિસ્ટ્રેટિવ અફેર્સ માટે બનાવાયેલ પૂછપરછને જનરલ અફેર્સમાં ખોટી રીતે રૂટ કરે છે, તો જનરલ અફેર્સના ઇન્ચાર્જ વ્યક્તિ પૂછપરછને પાછી એડમિનિસ્ટ્રેટિવ અફેર્સમાં રૂટ કરશે. આ રી-રૂટીંગ માહિતી પણ જ્ઞાન આધારમાં રેકોર્ડ કરવામાં આવે છે.

રૂટીંગ લોગ્સ રેકોર્ડ કરવા માટેની આ સરળ પદ્ધતિ, LLM અને જ્ઞાન આધાર પ્રણાલી સાથે મળીને, કુદરતી ભાષા મશીન લર્નિંગ માટે એક વાસ્તવિક સુપરવાઇઝ્ડ મોડેલ બનશે.

અહીં મુખ્ય મુદ્દો ફરીથી એ છે કે LLM ની અંદરના ન્યુરલ નેટવર્કના પરિમાણોમાં બિલકુલ ફેરફાર થતો નથી. અને ફીડબેક લર્નિંગના પરિણામો સંખ્યાત્મક મૂલ્યો નથી, પરંતુ કુદરતી ભાષાના વાક્યોનો સંગ્રહ છે.

વધુમાં, આ સિસ્ટમ સ્પષ્ટપણે એક મશીન લર્નિંગ સિસ્ટમ છે, માનવ શિક્ષણ સિસ્ટમ નથી.

તેથી, આ મશીન લર્નિંગનું એક નવું સ્વરૂપ છે: કુદરતી ભાષા દ્વારા મશીન લર્નિંગ.

કુદરતી ભાષા મશીન લર્નિંગની શક્તિઓ

સંખ્યાત્મક મશીન લર્નિંગથી વિપરીત, કુદરતી ભાષા શીખવાના ઘણા ફાયદા છે.

એક શબ્દમાં કહીએ તો, તેની વ્યાખ્યાયિત લાક્ષણિકતા તેની જબરદસ્ત શીખવાની કાર્યક્ષમતા છે.

સંખ્યાત્મક મશીન લર્નિંગને સામાન્ય રીતે મોટી માત્રામાં તાલીમ ડેટા અને પુનરાવર્તિત શિક્ષણની જરૂર પડે છે. તાલીમ ડેટાની પૂર્વ-પ્રક્રિયા પણ જરૂરી છે.

મોટી માત્રામાં તાલીમ ડેટાની જરૂર પડે છે કારણ કે શીખવા માંગતા ફીચર્સ ડેટાના એક ભાગમાં સમાયેલા નથી, પરંતુ મોટી માત્રામાં ડેટામાં વિતરિત થયેલા હોય છે.

આ કારણોસર, ખરેખર ઇચ્છિત ફીચર્સના પરિમાણના વર્ગના ક્રમમાં તાલીમ ડેટાની જરૂર પડે છે.

પુનરાવર્તિત શિક્ષણ જરૂરી છે કારણ કે ન્યુરલ નેટવર્કના પરિમાણો સ્થાનિક ઓપ્ટિમામાં પડ્યા વિના યોગ્ય રીતે શીખવામાં આવે તેની ખાતરી કરવા માટે એક જ ફીડબેક લૂપ દરમિયાન પરિમાણોમાં ફેરફાર નાનો હોવો જોઈએ.

તાલીમ ડેટાની પૂર્વ-પ્રક્રિયા, જેમ કે નોર્મલાઇઝેશન અને એજ એક્સટ્રેક્શન, ખરેખર ઇચ્છિત ફીચર્સને હાઇલાઇટ કરવા માટે જરૂરી છે. આ પૂર્વ-પ્રક્રિયામાં પણ નોંધપાત્ર પ્રયત્નોની જરૂર પડે છે.

ઉદાહરણ તરીકે, જો વહીવટી અને સામાન્ય બાબતોના વિભાગો વચ્ચે કાર્યોનું વિભાજન પરંપરાગત ન્યુરલ નેટવર્કનો ઉપયોગ કરીને શીખવાનું હોય, અને તેના ફીચર્સ 50-પરિમાણીય હોય, તો ઓછામાં ઓછા 1000 કે તેથી વધુ તાલીમ ડેટા પોઈન્ટ્સની જરૂર પડશે. વધુમાં, પૂરતી શીખવાની ચોકસાઈ પ્રાપ્ત કરવા માટે આ 1000+ ડેટા પોઈન્ટ્સને લગભગ 100 વખત પુનરાવર્તિત કરવા પડી શકે છે.

વધુમાં, જો આ 1000 ડેટા પોઈન્ટ્સમાં વધારાના શબ્દો, શબ્દોની જોડણીમાં ભિન્નતાઓ, અથવા વિવિધ શબ્દ ક્રમ અને વાક્યરચનાઓ શામેલ હોય, તો શીખવાની કાર્યક્ષમતા ઘટશે, અથવા અસંબંધિત ફીચર્સ શીખવામાં આવશે.

તેથી, વધારાના શબ્દો દૂર કરવા, ભિન્નતાઓને દૂર કરવા માટે શબ્દભંડોળનું પ્રમાણભૂતકરણ કરવું, અને શબ્દ ક્રમ અને વાક્યરચનાને એકીકૃત કરવા માટે પૂર્વ-પ્રક્રિયા અનિવાર્ય છે.

બીજી બાજુ, કુદરતી ભાષા મશીન લર્નિંગને ઓછા તાલીમ ડેટાની જરૂર પડે છે, તે જ તાલીમ ડેટા સાથે પુનરાવર્તનની જરૂર નથી, અને ઘણા કિસ્સાઓમાં, પૂર્વ-પ્રક્રિયાની જરૂર નથી.

જો વહીવટી અને સામાન્ય બાબતોના વિભાગો વચ્ચે કાર્યોના વિભાજનની વિશેષતાઓ 50-પરિમાણીય હોય, તો દરેક પરિમાણને અનુરૂપ 50 માહિતીના ટુકડાઓ ઘણીવાર પૂરતા હોય છે.

વધુમાં, આનો અર્થ એ નથી કે 50 અલગ વાક્યોની જરૂર છે.

"A, B, C, અને D સંબંધિત ફરજો વહીવટી વિભાગ દ્વારા સંભાળવામાં આવે છે" જેવા એક વાક્યમાં ચાર પરિમાણો માટેની માહિતી શામેલ હોઈ શકે છે.

વધુમાં, ભાષાને અમૂર્ત કરીને, બહુવિધ પરિમાણોમાંથી માહિતી એકત્રિત કરી શકાય છે. "ઇમારતની ઉપભોક્તા વસ્તુઓ અને સાધનોની જાળવણી વહીવટી વિભાગની જવાબદારી છે" જેવું એક વાક્ય લાઇટ બલ્બ બદલવા અને સ્વચાલિત દરવાજાની ખામી સહિતના વ્યાપક પરિમાણોમાંથી માહિતી એકત્રિત કરે છે.

આ અમૂર્તીકરણ LLM ના પૂર્વ-તાલીમ પામેલા જ્ઞાન અને તર્ક ક્ષમતાઓનો લાભ લે છે, જેનાથી જરૂરી તાલીમ ડેટાની માત્રામાં ઘટાડો થાય છે.

અને, મૂળભૂત રીતે, કુદરતી ભાષા શીખવાને પુનરાવર્તિત શિક્ષણની જરૂર નથી. એકવાર ઉપરોક્ત વાક્ય જ્ઞાન આધારમાં ઉમેરવામાં આવે, પછી શિક્ષણ પૂર્ણ થાય છે.

વધુમાં, જ્ઞાનની પૂર્વ-પ્રક્રિયા જરૂરી નથી. ભલે વહીવટી અથવા સામાન્ય બાબતોના વિભાગોના વર્ણનો અન્ય વિવિધ વાક્યો સાથે મિશ્રિત હોય, તેમ છતાં તેનો જ્ઞાન તરીકે ઉપયોગ કરી શકાય છે.

વૈકલ્પિક રીતે, કાચો ડેટા, જેમ કે અગાઉના ઉદાહરણમાં પૂછપરછ અને અસાઇનમેન્ટ્સના લોગ્સ, પૂર્વ-પ્રક્રિયા વિના તાલીમ ડેટા તરીકે તરત જ ઉપયોગ કરી શકાય છે.

આ રીતે, કુદરતી ભાષા મશીન લર્નિંગ સંખ્યાત્મક મશીન લર્નિંગ કરતાં ઘણી વધુ કાર્યક્ષમ રીતે શીખી શકે છે.

નિષ્કર્ષ

કમ્પ્યુટર્સની હાઈ-સ્પીડ ન્યુમેરિકલ ગણતરી ક્ષમતાઓની સરખામણીમાં, મોટા ભાષા મોડેલોની કુદરતી ભાષા પ્રોસેસિંગ ક્ષમતાઓ ખૂબ ધીમી છે.

જોકે, ન્યુમેરિકલ મશીન લર્નિંગની સરખામણીમાં કુદરતી ભાષા મશીન લર્નિંગ વધુ કાર્યક્ષમ શિક્ષણ શક્ય બનાવે છે.

આ કાર્યક્ષમતા હાઈ-સ્પીડ ન્યુમેરિકલ ગણતરી ક્ષમતાઓ અને ધીમી કુદરતી ભાષા પ્રોસેસિંગ ક્ષમતાઓ વચ્ચેના અંતરને નોંધપાત્ર રીતે વટાવી જાય છે.

વધુમાં, મોટા ભાષા મોડેલો, જે ન્યુમેરિકલ શિક્ષણ દ્વારા આશ્ચર્યજનક ઉત્ક્રાંતિમાંથી પસાર થયા છે, તે સ્કેલિંગ કાયદાઓ અનુસાર, ફક્ત સ્કેલિંગ અપ દ્વારા ક્ષમતા સુધારણામાં મર્યાદા સુધી પહોંચી રહ્યા હોય તેવું લાગે છે.

તે કિસ્સામાં, કુદરતી ભાષા મશીન લર્નિંગ દ્વારા ક્ષમતા સુધારવા પર ધ્યાન કેન્દ્રિત થવાની સંભાવના ઘણી વધારે છે.

કુદરતી ભાષા મશીન લર્નિંગનું મૂળભૂત મોડેલ

મૂળભૂત મોડેલની વાસ્તવિકતા

કુદરતી ભાષા મશીન લર્નિંગની શક્તિઓ

નિષ્કર્ષ

શ્રેણીઓ