ঐতিহ্যবাহী মেশিন লার্নিং এমন একটি দৃষ্টান্তের মধ্যে কাজ করে যেখানে কম্পিউটার, সংখ্যাগত গণনায় পারদর্শী, সংখ্যাগত ডেটা ব্যবহার করে শেখে এবং পরিমাপকৃত পরামিতি অর্জন করে।
তবে, মানুষ কেবল সংখ্যাগত পদ্ধতির মাধ্যমেই নয়, ভাষার মাধ্যমেও শিখতে সক্ষম। আমরা অভিজ্ঞতাকে শব্দে সংগঠিত করি এবং রেকর্ড করি, তারপর সেই শব্দগুলি স্মরণ করি, পড়ি এবং ব্যবহার করি।
লার্জ ল্যাঙ্গুয়েজ মডেল (LLMs) একইভাবে শব্দে জ্ঞান বর্ণনা করতে এবং শব্দ পড়ে জ্ঞান ব্যবহার করতে পারে।
প্রাকৃতিক ভাষা প্রসেসর হিসাবে LLM ব্যবহার করে, শুধুমাত্র সংখ্যা-ভিত্তিক মেশিন লার্নিংয়ের পরিবর্তে প্রাকৃতিক ভাষা-ভিত্তিক মেশিন লার্নিং সম্ভব হয়ে ওঠে।
এই কারণে, LLM-এর আবির্ভাব প্রাকৃতিক ভাষা মেশিন লার্নিং নামক একটি নতুন ক্ষেত্রের সূচনা করেছে।
LLM-এর প্রাক-প্রশিক্ষণ ঐতিহ্যবাহী সংখ্যাগত মেশিন লার্নিংয়ের একটি রূপ। এখানে আলোচিত প্রাকৃতিক ভাষা মেশিন লার্নিং একটি নতুন ধরনের মেশিন লার্নিংকে বোঝায় যা প্রাক-প্রশিক্ষিত LLM ব্যবহার করে।
প্রাকৃতিক ভাষা মেশিন লার্নিং এর মৌলিক মডেল
প্রাকৃতিক ভাষা মেশিন লার্নিং এর এমন কিছু দিক রয়েছে যা প্রচলিত সংখ্যাগত মেশিন লার্নিংয়ের অনুরূপ, আবার কিছু দিক সম্পূর্ণ ভিন্ন।
প্রথমে প্রাকৃতিক ভাষা মেশিন লার্নিং এর ধারণাটি বোঝার জন্য, আমরা একটি মৌলিক মডেল বর্ণনা করব যা ঐতিহ্যবাহী সংখ্যাগত মেশিন লার্নিংয়ের অনুরূপ অংশগুলির উপর মনোযোগ কেন্দ্রীভূত করবে।
এখন থেকে, একটি প্রাক-প্রশিক্ষিত লার্জ ল্যাঙ্গুয়েজ মডেলকে LLM হিসাবে উল্লেখ করা হবে। লক্ষ্যণীয় যে এই শেখার প্রক্রিয়ার সময় LLM-এর পরামিতিগুলি মোটেই পরিবর্তিত হয় না।
মৌলিক মডেলটি একটি তত্ত্বাবধানে শেখার মডেল, যা শ্রেণিবিন্যাস সমস্যাগুলিকে লক্ষ্য করে।
শেখার ডেটার জন্য, ইনপুট বাক্য এবং তাদের শ্রেণিবিন্যাসগুলির একাধিক জোড়া সঠিক উত্তর হিসাবে প্রস্তুত করা হয়।
উদাহরণস্বরূপ, ধরা যাক একটি কোম্পানিতে একটি সাধারণ প্রশাসন বিভাগ (General Affairs Department) এবং একটি প্রশাসনিক পরিষেবা বিভাগ (Administrative Affairs Department) রয়েছে।
এই দুটি বিভাগের স্বতন্ত্র ভূমিকা রয়েছে। "অফিসের লাইট বাল্ব নষ্ট হয়ে গেছে", "আমি আমার অ্যাক্সেস কার্ড ভুলে গেছি", অথবা "আমি সদর দফতরে প্রধান হল বুক করতে চাই" এর মতো ইনপুট বাক্যগুলির জন্য, শ্রেণিবিন্যাস নির্দেশ করে যে কোন বিভাগ, সাধারণ প্রশাসন নাকি প্রশাসনিক পরিষেবা, দায়ী।
এই প্রশিক্ষণ ডেটা থেকে, শুধুমাত্র ইনপুট বাক্যগুলি নিষ্কাশন করা হয় এবং LLM-এ ফিড করা হয়।
এখানে, আমরা ইচ্ছাকৃতভাবে একটি সিস্টেম প্রম্পটের মাধ্যমে প্রতিক্রিয়া সীমাবদ্ধ করি, যেমন: "অনুগ্রহ করে বলুন যে এই অনুসন্ধানের জন্য দায়ী বিভাগটি সাধারণ প্রশাসন নাকি প্রশাসনিক পরিষেবা। আপনার উত্তরে 'সাধারণ প্রশাসন' বা 'প্রশাসনিক পরিষেবা' ব্যতীত অন্য কোনো অক্ষর অন্তর্ভুক্ত করবেন না।"
প্রাথমিকভাবে, LLM এই কোম্পানি সম্পর্কে জ্ঞান ছাড়াই একটি প্রতিক্রিয়া তৈরি করে। স্বাভাবিকভাবেই, এটি ভুল হতে পারে, অথবা মাঝে মাঝে কাকতালীয়ভাবে সঠিকও হতে পারে।
প্রতিটি প্রতিক্রিয়ার জন্য, একটি শিক্ষণ ব্যবস্থা নির্ধারণ করে যে এটি সঠিক নাকি ভুল। তারপর, ইনপুট বাক্য, LLM-এর প্রতিক্রিয়া এবং রায়ের ফলাফলের সমন্বয় একটি জ্ঞানভাণ্ডারে সংরক্ষণ করা হয়।
এই প্রক্রিয়াটি প্রায় অর্ধেক প্রশিক্ষণ ডেটার জন্য পুনরাবৃত্তি করা হয়।
বাকি অর্ধেক প্রশিক্ষণ ডেটার জন্য, জ্ঞানভাণ্ডারে রেকর্ড করা সমস্ত তথ্য LLM-এর জন্য সিস্টেম প্রম্পটে যুক্ত করা হয় এবং একই প্রক্রিয়া সম্পন্ন করা হয়।
এই মুহূর্তে, জ্ঞানভাণ্ডারে এই কোম্পানির সাধারণ প্রশাসন এবং প্রশাসনিক পরিষেবা বিভাগের দায়িত্ব বিভাজন সম্পর্কে তথ্য রয়েছে, তাই সঠিক উত্তরের সম্ভাবনা ডেটার প্রথম অর্ধেকের চেয়ে বেশি হওয়া উচিত।
এইভাবে, একটি LLM এবং একটি জ্ঞানভাণ্ডারকে একত্রিত করে একটি সিস্টেম একটি কোম্পানির সাধারণ প্রশাসন এবং প্রশাসনিক পরিষেবা বিভাগের দায়িত্ব বিভাজন শিখতে পারে।
শেখার প্রক্রিয়াটি নিজেই ঐতিহ্যবাহী সংখ্যাগত মেশিন লার্নিংয়ের অনুরূপ। পার্থক্য হলো, শেখার ফলাফলগুলি LLM-এর মধ্যে নিউরাল নেটওয়ার্কের পরামিতিগুলিতে নয়, বরং জ্ঞানভাণ্ডারে প্রতিফলিত হয়। উপরন্তু, জ্ঞানভাণ্ডারে সংখ্যাগত মান নয়, প্রাকৃতিক ভাষা রেকর্ড করা হয়।
এটি প্রাকৃতিক ভাষা মেশিন লার্নিংয়ের মৌলিক মডেল।
মৌলিক মডেলের বাস্তবতা
যারা LLM ব্যবহার করেন তারা দ্রুতই বুঝতে পারবেন যে এই মৌলিক মডেলটির বাস্তবতার অভাব রয়েছে।
এর কারণ হলো, একটি শিক্ষণ ব্যবস্থা দ্বারা সঠিক/ভুল বিচার নির্ধারণের ঝামেলায় যাওয়ার প্রয়োজন নেই; কেউ চাইলে শুরু থেকেই প্রশিক্ষণ ডেটা সরাসরি সিস্টেম প্রম্পটে ইনপুট করতে পারে।
তবে, মৌলিক মডেলটি প্রয়োগ করে এবং পরিস্থিতি সামান্য পরিবর্তন করে এটিকে বাস্তবসম্মত করা যেতে পারে।
উদাহরণস্বরূপ, কল্পনা করুন যে সাধারণ প্রশাসন বিভাগ এবং প্রশাসনিক পরিষেবা বিভাগ যৌথভাবে একটি অনুসন্ধান ডেস্ক তৈরি করেছে, এবং একজন মানুষ ম্যানুয়ালি প্রতিটি আগত অনুসন্ধানকে উপযুক্ত বিভাগে বরাদ্দ করে।
এই অনুসন্ধানগুলি এবং তাদের বরাদ্দকরণের ফলাফলগুলি একটি জ্ঞানভাণ্ডারে যুক্ত করার জন্য একটি সাধারণ সিস্টেম তৈরি করা হয়।
তারপর, এই জ্ঞানভাণ্ডার ব্যবহার করে, LLM মানুষের কাছ থেকে দায়িত্ব নিয়ে নতুন অনুসন্ধানগুলিকে বিভাগগুলিতে বরাদ্দ করতে পারে।
এই ক্ষেত্রে, যদি LLM ভুল করে প্রশাসনিক পরিষেবা বিভাগের জন্য নির্ধারিত একটি অনুসন্ধান সাধারণ প্রশাসন বিভাগে বরাদ্দ করে, তাহলে সাধারণ প্রশাসন বিভাগের কর্মীরা অনুসন্ধানটি আবার প্রশাসনিক পরিষেবা বিভাগে পুনরায় বরাদ্দ করবে। এই পুনরায় বরাদ্দকরণের তথ্যও জ্ঞানভাণ্ডারে রেকর্ড করা হয়।
বরাদ্দকরণের লগ রেকর্ড করার এই সহজ প্রক্রিয়া, একটি LLM এবং একটি জ্ঞানভাণ্ডারের সাথে একত্রিত হয়ে, একটি বাস্তবসম্মত তত্ত্বাবধানে পরিচালিত প্রাকৃতিক ভাষা মেশিন লার্নিং মডেল তৈরি করবে।
এখানে মূল বিষয়, পুনরাবৃত্তি করে বলছি, হলো LLM-এর মধ্যে নিউরাল নেটওয়ার্কের পরামিতিগুলি মোটেই পরিবর্তিত হয় না। তদুপরি, প্রতিক্রিয়া লার্নিং ফলাফল হলো প্রাকৃতিক ভাষার বাক্যগুলির একটি সংগ্রহ, সংখ্যাগত মান নয়।
এবং, নিঃসন্দেহে, এই সিস্টেমটি মেশিন লার্নিং জড়িত, মানব লার্নিং নয়।
সুতরাং, এটি মেশিন লার্নিংয়ের একটি নতুন রূপ: প্রাকৃতিক ভাষা মেশিন লার্নিং।
প্রাকৃতিক ভাষা মেশিন লার্নিং এর শক্তি
সংখ্যাগত মেশিন লার্নিং এর বিপরীতে, প্রাকৃতিক ভাষা লার্নিং এর অনেক সুবিধা রয়েছে।
এক কথায়, এর প্রধান বৈশিষ্ট্য হল অত্যন্ত উচ্চ শেখার দক্ষতা।
সংখ্যাগত মেশিন লার্নিং সাধারণত প্রচুর পরিমাণে প্রশিক্ষণ ডেটা এবং পুনরাবৃত্তিমূলক শেখার প্রয়োজন হয়। উপরন্তু, প্রশিক্ষণ ডেটার প্রাক-প্রক্রিয়াকরণও অপরিহার্য।
প্রচুর পরিমাণে প্রশিক্ষণ ডেটার প্রয়োজন হয় কারণ শেখার জন্য প্রয়োজনীয় বৈশিষ্ট্যগুলি একক ডেটার মধ্যে থাকে না, বরং বিপুল পরিমাণ ডেটার মধ্যে ছড়িয়ে থাকে।
এই কারণে, সত্যিকার অর্থে কাঙ্ক্ষিত বৈশিষ্ট্যগুলির মাত্রার বর্গক্ষেত্রের সমান পরিমাণ প্রশিক্ষণ ডেটা প্রয়োজন।
পুনরাবৃত্তিমূলক শেখার প্রয়োজন হয় যাতে নিউরাল নেটওয়ার্কের পরামিতিগুলি স্থানীয় সর্বনিম্ন স্থানে না পড়ে সঠিকভাবে শেখা যায়, যার জন্য প্রতিটি প্রতিক্রিয়ার সাথে পরামিতি পরিবর্তনকে ছোট রাখা প্রয়োজন।
প্রশিক্ষণ ডেটার প্রাক-প্রক্রিয়াকরণ, যেমন নরমালাইজেশন এবং এজ এক্সট্রাকশন, সত্যিকার অর্থে কাঙ্ক্ষিত বৈশিষ্ট্যগুলিকে তুলে ধরার জন্য প্রয়োজন। এই প্রাক-প্রক্রিয়াকরণেও উল্লেখযোগ্য প্রচেষ্টার প্রয়োজন হয়।
উদাহরণস্বরূপ, যদি প্রশাসনিক পরিষেবা বিভাগ এবং সাধারণ প্রশাসন বিভাগের মধ্যে দায়িত্ব বিভাজন একটি ঐতিহ্যবাহী নিউরাল নেটওয়ার্ক ব্যবহার করে শেখা হয়, এবং এর বৈশিষ্ট্যগুলি ৫০-মাত্রিক হয়, তবে কমপক্ষে প্রায় ১,০০০ বা তার বেশি প্রশিক্ষণ ডেটা দৃষ্টান্তের প্রয়োজন হবে। উপরন্তু, এই ১,০০০+ ডেটা দৃষ্টান্তগুলিকে উপযুক্ত শেখার নির্ভুলতা অর্জনের জন্য প্রায় ১০০ বার পুনরাবৃত্তিমূলকভাবে শিখতে হতে পারে।
এছাড়াও, যদি এই ১,০০০ প্রশিক্ষণ ডেটা দৃষ্টান্তের সেটে অপ্রয়োজনীয় শব্দ, বানানের তারতম্য, বা বিভিন্ন শব্দক্রম এবং বাক্য গঠন অন্তর্ভুক্ত থাকে, তবে শেখার দক্ষতা কমে যায় এবং সম্পর্কহীন বৈশিষ্ট্যগুলি শেখা হতে পারে।
অতএব, অপ্রয়োজনীয় শব্দগুলি অপসারণ করতে, বানানের তারতম্য দূর করতে পরিভাষা মানসম্মত করতে, এবং শব্দক্রম ও সিনট্যাক্সকে একত্রিত করার জন্য প্রাক-প্রক্রিয়াকরণ অপরিহার্য।
এর বিপরীতে, প্রাকৃতিক ভাষা মেশিন লার্নিংয়ের জন্য কম প্রশিক্ষণ ডেটা প্রয়োজন হয়, একই প্রশিক্ষণ ডেটার সাথে পুনরাবৃত্তির প্রয়োজন হয় না এবং প্রায়শই প্রাক-প্রক্রিয়াকরণেরও প্রয়োজন হয় না।
যদি প্রশাসনিক পরিষেবা বিভাগ এবং সাধারণ প্রশাসন বিভাগের মধ্যে দায়িত্ব বিভাজনের বৈশিষ্ট্যগুলি ৫০-মাত্রিক হয়, তবে প্রতিটি মাত্রার সাথে সম্পর্কিত ৫০টি তথ্যের টুকরা যথেষ্ট।
তাছাড়া, এর অর্থ এই নয় যে ৫০টি পৃথক বাক্য প্রয়োজন।
"A, B, C, এবং D সম্পর্কিত দায়িত্বগুলি প্রশাসনিক পরিষেবা বিভাগ দ্বারা পরিচালিত হয়" এর মতো একটি একক বাক্য চারটি মাত্রার তথ্য অন্তর্ভুক্ত করতে পারে।
উপরন্তু, ভাষার বিমূর্তকরণের মাধ্যমে একাধিক মাত্রার তথ্য একত্রিত করা যেতে পারে। "বিল্ডিংয়ের ভোগ্যপণ্য এবং সুবিধাগুলির রক্ষণাবেক্ষণ প্রশাসনিক পরিষেবা বিভাগের দায়িত্ব" এর মতো একটি বাক্য বাল্ব পরিবর্তন এবং স্বয়ংক্রিয় দরজার ত্রুটি সহ বিস্তৃত মাত্রার তথ্য একত্রিত করে।
এই বিমূর্তকরণকে LLM-এর প্রাক-প্রশিক্ষিত জ্ঞান এবং যুক্তি ক্ষমতাকে কাজে লাগিয়ে প্রশিক্ষণ ডেটা হ্রাস করা বলা যেতে পারে।
এবং, মৌলিকভাবে, প্রাকৃতিক ভাষা শেখার জন্য পুনরাবৃত্তিমূলক শেখার প্রয়োজন হয় না। একবার উল্লিখিত বাক্যটি জ্ঞানভাণ্ডারে যুক্ত হলে, শেখা সম্পূর্ণ হয়।
এছাড়াও, জ্ঞানের প্রাক-প্রক্রিয়াকরণের প্রয়োজন নেই। এমনকি যদি প্রশাসনিক পরিষেবা বিভাগ বা সাধারণ প্রশাসন বিভাগের ব্যাখ্যাগুলি বিভিন্ন লেখার মধ্যে মিশ্রিত থাকে, তবে সেগুলি এখনও জ্ঞান হিসাবে ব্যবহার করা যেতে পারে।
অথবা, পূর্ববর্তী উদাহরণের মতো, জিজ্ঞাসা এবং বরাদ্দকরণের রেকর্ডের মতো কাঁচা ডেটা প্রাক-প্রক্রিয়াকরণ ছাড়াই তাৎক্ষণিকভাবে প্রশিক্ষণ ডেটা হিসাবে ব্যবহার করা যেতে পারে।
সুতরাং, প্রাকৃতিক ভাষা মেশিন লার্নিং সংখ্যাগত মেশিন লার্নিংয়ের চেয়ে অনেক বেশি দক্ষতার সাথে শিখতে পারে।
উপসংহার
কম্পিউটারের উচ্চ-গতির সংখ্যাগত গণনার ক্ষমতার তুলনায়, বৃহৎ ভাষা মডেলগুলির প্রাকৃতিক ভাষা প্রক্রিয়াকরণের ক্ষমতা বেশ ধীর।
তবে, প্রাকৃতিক ভাষা মেশিন লার্নিং কার্যকর শেখার সুযোগ দেয়, যা উচ্চ-গতির সংখ্যাগত গণনা এবং ধীর প্রাকৃতিক ভাষা প্রক্রিয়াকরণের মধ্যকার ব্যবধানকে অনেক ছাড়িয়ে যায়।
এছাড়াও, বৃহৎ ভাষা মডেলগুলি, যা সংখ্যাগত শিক্ষার মাধ্যমে আশ্চর্যজনক অগ্রগতি অর্জন করেছে, স্কেলিং আইন অনুসারে সাধারণ স্কেলিং আপের মাধ্যমে কার্যকারিতা উন্নতির সীমার কাছাকাছি চলে আসছে বলে মনে হয়।
এমন পরিস্থিতিতে, এটি অত্যন্ত সম্ভাবনাময় যে প্রাকৃতিক ভাষা মেশিন লার্নিংয়ের মাধ্যমে ক্ষমতা বৃদ্ধির দিকে মনোযোগ স্থানান্তরিত হবে।