یادگیری ماشینی سنتی در چارچوبی عمل میکند که در آن رایانهها، که در محاسبات عددی مهارت دارند، از دادههای عددی یاد میگیرند و پارامترهای عددی را به دست میآورند.
از سوی دیگر، ما قادر به یادگیری نه تنها از طریق مکانیسمهای عددی، بلکه از طریق زبان نیز هستیم. ما تجربیات را به صورت کلمات سازماندهی و ثبت میکنیم، سپس آن کلمات را به یاد میآوریم یا میخوانیم تا از آنها استفاده کنیم.
مدلهای زبان بزرگ نیز میتوانند به همین ترتیب دانش را با استفاده از کلمات توصیف کنند و با خواندن آنها از کلمات استفاده کنند.
با بهرهگیری از مدلهای زبان بزرگ، که پردازندههای زبان طبیعی هستند، یادگیری ماشینی مبتنی بر زبان طبیعی، به جای صرفاً یادگیری ماشینی مبتنی بر عدد، امکانپذیر میشود.
در نتیجه، ظهور مدلهای زبان بزرگ، زمینه جدیدی را گشوده است: یادگیری ماشینی زبان طبیعی.
پیشآموزش مدلهای زبان بزرگ، یادگیری ماشینی عددی سنتی است. یادگیری ماشینی زبان طبیعی که در اینجا توصیف میشود، به شکل جدیدی از یادگیری ماشینی اشاره دارد که از مدلهای زبان بزرگ از پیشآموزشدیده استفاده میکند.
مدل پایه یادگیری ماشینی زبان طبیعی
یادگیری ماشینی زبان طبیعی دارای جنبههایی است که هم شبیه به یادگیری ماشینی عددی سنتی است و هم کاملاً با آن متفاوت است.
ابتدا، برای درک تصویری از یادگیری ماشینی زبان طبیعی، بخشهایی را که شبیه به یادگیری ماشینی عددی سنتی هستند، به عنوان یک مدل پایه توضیح خواهیم داد.
از این پس، به مدل زبان بزرگ از پیشآموزشدیده، LLM اشاره خواهیم کرد. لطفاً توجه داشته باشید که پارامترهای LLM در طول این فرآیند یادگیری به هیچ وجه تغییر نمیکنند.
مدل پایه، یادگیری نظارتشده است که یک مشکل طبقهبندی را هدف قرار میدهد.
جفتهای متعددی از جملات ورودی و طبقهبندیهای آنها به عنوان پاسخهای صحیح برای دادههای آموزشی آماده میشوند.
به عنوان مثال، فرض کنید شرکتی دارای دپارتمان امور عمومی و دپارتمان امور اداری است.
این دو دپارتمان تقسیم وظایف دارند. برای جملات ورودی مانند "لامپ دفتر سوخته است"، "کارت دسترسم را فراموش کردهام" یا "میخواهم سالن اصلی ستاد مرکزی را رزرو کنم"، طبقهبندی نشان میدهد که دپارتمان امور عمومی یا دپارتمان امور اداری مسئول است.
از این دادههای آموزشی، تنها جملات ورودی استخراج شده و به LLM داده میشوند.
در اینجا، به عنوان یک پرامپت سیستمی، ما عمداً پاسخ را با بیان این جمله محدود میکنیم: "لطفاً پاسخ دهید که کدام دپارتمان، امور عمومی یا امور اداری، مسئول این پرسش است. هیچ کاراکتری به جز 'امور عمومی' یا 'امور اداری' را در پاسخ خود وارد نکنید."
در ابتدا، LLM بدون هیچ دانشی از این شرکت، پاسخهایی تولید خواهد کرد. طبیعتاً، برخی از پاسخها نادرست خواهند بود، در حالی که برخی دیگر ممکن است به صورت تصادفی صحیح باشند.
برای هر پاسخ، سیستم معلم تعیین میکند که آیا پاسخ صحیح است یا نادرست. سپس، ترکیب جمله ورودی، پاسخ LLM و نتیجه قضاوت در یک پایگاه دانش ذخیره میشود.
این فرآیند برای حدود نیمی از دادههای آموزشی تکرار میشود.
برای نیمه باقیمانده دادههای آموزشی، همین فرآیند انجام میشود، اما این بار تمام اطلاعات ثبت شده در پایگاه دانش به پرامپت سیستمی برای LLM اضافه میشود.
در این مرحله، پایگاه دانش حاوی اطلاعاتی در مورد تقسیم وظایف بین دپارتمانهای امور عمومی و امور اداری این شرکت است، بنابراین احتمال دریافت پاسخهای صحیح باید بیشتر از نیمه اول دادهها باشد.
به این ترتیب، سیستمی که LLM و پایگاه دانش را ترکیب میکند، میتواند تقسیم وظایف بین دپارتمانهای امور عمومی و امور اداری این شرکت را یاد بگیرد.
مکانیسم یادگیری خود شبیه به یادگیری ماشینی عددی سنتی است. تفاوت در این است که نتایج یادگیری در پایگاه دانش منعکس میشوند، نه در پارامترهای شبکه عصبی درون LLM. و، زبان طبیعی، نه اعداد، در پایگاه دانش ثبت میشود.
این مدل پایه یادگیری ماشینی زبان طبیعی است.
واقعیت مدل پایه
همانطور که هر کسی که از LLMها استفاده میکند به سرعت متوجه میشود، این مدل پایه فاقد واقعگرایی است.
این بدان دلیل است که به جای اینکه زحمت بکشیم و یک سیستم معلم داشته باشیم تا پاسخهای صحیح و غلط را تعیین کند، میتوانیم به سادگی دادههای آموزشی را از همان ابتدا به پرامپت سیستم وارد کنیم.
با این حال، با اعمال مدل پایه و کمی تغییر سناریو، واقعگرایی پیدا میکند.
برای مثال، فرض کنید دپارتمانهای امور عمومی و امور اداری به صورت مشترک یک میز پاسخگویی ایجاد میکنند و انسانها به صورت فردی درخواستهای ورودی را به دپارتمان مناسب ارجاع میدهند.
یک سیستم ساده میتواند برای اضافه کردن این درخواستها و نتایج ارجاع آنها به یک پایگاه دانش ایجاد شود.
سپس، با استفاده از این پایگاه دانش، LLM میتواند وظیفه ارجاع درخواستهای جدید به دپارتمانها را از انسانها به عهده بگیرد.
در این حالت، اگر LLM به اشتباه یک درخواست مربوط به امور اداری را به امور عمومی ارجاع دهد، مسئول امور عمومی، درخواست را دوباره به امور اداری ارجاع خواهد داد. این اطلاعات ارجاع مجدد نیز در پایگاه دانش ثبت میشود.
این مکانیسم ساده برای ثبت گزارشهای ارجاع، در ترکیب با LLM و سیستم پایگاه دانش، به یک مدل نظارت شده واقعگرایانه برای یادگیری ماشینی زبان طبیعی تبدیل میشود.
نکته کلیدی در اینجا، دوباره تأکید میشود، این است که پارامترهای شبکه عصبی درون LLM به هیچ وجه تغییر نمیکنند. و نتایج یادگیری بازخوردی، مقادیر عددی نیستند، بلکه مجموعهای از جملات زبان طبیعی هستند.
علاوه بر این، این سیستم بدون شک یک سیستم یادگیری ماشینی است، نه یک سیستم یادگیری انسانی.
بنابراین، این یک شکل جدید از یادگیری ماشینی است: یادگیری ماشینی از طریق زبان طبیعی.
نقاط قوت یادگیری ماشینی زبان طبیعی
بر خلاف یادگیری ماشینی عددی، یادگیری زبان طبیعی مزایای بسیاری دارد.
به یک کلام، ویژگی اصلی آن، کارایی یادگیری فوقالعاده آن است.
یادگیری ماشینی عددی به طور کلی به مقدار زیادی داده آموزشی و یادگیری تکراری نیاز دارد. پیشپردازش دادههای آموزشی نیز ضروری است.
مقدار زیادی داده آموزشی مورد نیاز است زیرا ویژگیهایی که فرد میخواهد یاد بگیرد در یک قطعه داده واحد گنجانده نشدهاند، بلکه در حجم زیادی از دادهها توزیع شدهاند.
به همین دلیل، دادههای آموزشی به اندازه مربع ابعاد ویژگیهای واقعاً مورد نظر، مورد نیاز است.
یادگیری تکراری ضروری است زیرا تغییر در پارامترها در طول یک حلقه بازخورد واحد باید کوچک باشد تا اطمینان حاصل شود که پارامترهای شبکه عصبی به درستی و بدون افتادن در بهینههای محلی یاد گرفته میشوند.
پیشپردازش دادههای آموزشی، مانند نرمالسازی و استخراج لبه، برای برجسته کردن ویژگیهای واقعاً مورد نظر ضروری است. این پیشپردازش نیز به تلاش قابل توجهی نیاز دارد.
به عنوان مثال، اگر تقسیم وظایف بین دپارتمانهای اداری و عمومی قرار بود با استفاده از یک شبکه عصبی سنتی یاد گرفته شود، و ویژگیهای آن ۵۰ بُعدی بود، حداقل ۱۰۰۰ یا بیشتر نقطه داده آموزشی مورد نیاز خواهد بود. علاوه بر این، این ۱۰۰۰+ نقطه داده ممکن است نیاز به حدود ۱۰۰ بار تکرار داشته باشند تا دقت یادگیری کافی به دست آید.
علاوه بر این، اگر این ۱۰۰۰ نقطه داده حاوی کلمات اضافی، تغییرات در املای کلمات، یا تنوعی از ترتیب کلمات و نحو باشند، کارایی یادگیری کاهش مییابد، یا ویژگیهای نامربوط یاد گرفته خواهند شد.
بنابراین، پیشپردازش برای حذف کلمات اضافی، استانداردسازی واژگان برای از بین بردن تغییرات، و یکپارچهسازی ترتیب کلمات و نحو، ضروری است.
از سوی دیگر، یادگیری ماشینی زبان طبیعی به دادههای آموزشی کمتری نیاز دارد، نیازی به تکرار با همان دادههای آموزشی ندارد، و در بسیاری از موارد، نیازی به پیشپردازش ندارد.
اگر ویژگیهای تقسیم وظایف بین دپارتمانهای اداری و عمومی ۵۰ بُعدی باشند، ۵۰ قطعه اطلاعات مربوط به هر بُعد اغلب کافی است.
علاوه بر این، این بدان معنا نیست که ۵۰ جمله جداگانه مورد نیاز است.
یک جمله واحد مانند "وظایف مربوط به A، B، C، و D توسط دپارتمان اداری انجام میشود" میتواند اطلاعات چهار بُعد را شامل شود.
علاوه بر این، با انتزاع زبان، اطلاعات از ابعاد متعدد را میتوان جمعآوری کرد. یک جمله واحد مانند "دپارتمان اداری مسئول مواد مصرفی ساختمان و نگهداری تجهیزات است" اطلاعات از طیف گستردهای از ابعاد، از جمله تعویض لامپ و خرابی درب خودکار را جمعآوری میکند.
این انتزاع از دانش از پیشآموزشدیده و قابلیتهای استدلال LLM بهره میبرد، در نتیجه میزان دادههای آموزشی مورد نیاز را کاهش میدهد.
و، اساساً، یادگیری زبان طبیعی به یادگیری تکراری نیاز ندارد. هنگامی که جمله ذکر شده به پایگاه دانش اضافه شود، یادگیری کامل میشود.
علاوه بر این، پیشپردازش دانش ضروری نیست. حتی اگر توصیفاتی از دپارتمانهای اداری یا عمومی با جملات مختلف دیگر مخلوط شوند، باز هم میتوانند به عنوان دانش استفاده شوند.
متناوباً، دادههای خام، مانند گزارشهای درخواستها و تخصیصها مانند مثال قبلی، میتوانند بلافاصله به عنوان داده آموزشی بدون پیشپردازش مورد استفاده قرار گیرند.
به این ترتیب، یادگیری ماشینی زبان طبیعی میتواند بسیار کارآمدتر از یادگیری ماشینی عددی یاد بگیرد.
نتیجهگیری
در مقایسه با قابلیتهای محاسبات عددی با سرعت بالا در رایانهها، قابلیتهای پردازش زبان طبیعی مدلهای زبان بزرگ نسبتاً کند هستند.
با این حال، یادگیری ماشینی زبان طبیعی در مقایسه با یادگیری ماشینی عددی، امکان یادگیری کارآمدتری را فراهم میکند.
این کارایی بسیار بیشتر از شکاف بین قابلیتهای محاسبات عددی با سرعت بالا و قابلیتهای کند پردازش زبان طبیعی است.
علاوه بر این، مدلهای زبان بزرگ، که تکامل شگفتانگیزی را از طریق یادگیری عددی تجربه کردهاند، به نظر میرسد طبق قوانین مقیاسبندی، در بهبود قابلیتها از طریق صرفاً افزایش مقیاس به حدی نزدیک میشوند.
در این صورت، بسیار محتمل است که تمرکز به سمت بهبود قابلیتها از طریق یادگیری ماشینی زبان طبیعی تغییر یابد.