یادگیری ماشینی سنتی در چارچوبی عمل میکند که در آن رایانهها، که در محاسبات عددی مهارت دارند، با استفاده از دادههای عددی یاد میگیرند و پارامترهای کمیشده را به دست میآورند.
با این حال، انسانها قادرند نه تنها از طریق مکانیسمهای عددی، بلکه از طریق زبان نیز یاد بگیرند. ما تجربیات را در قالب کلمات سازماندهی و ثبت میکنیم و سپس آن کلمات را به یاد میآوریم، میخوانیم و استفاده میکنیم.
مدلهای زبان بزرگ (LLMها) نیز میتوانند به همین ترتیب دانش را در کلمات توصیف کرده و با خواندن کلمات از دانش استفاده کنند.
با استفاده از LLMها به عنوان پردازشگرهای زبان طبیعی، یادگیری ماشینی مبتنی بر زبان طبیعی، به جای تنها یادگیری ماشینی مبتنی بر اعداد، امکانپذیر میشود.
به همین دلیل، ظهور LLMها حوزه جدیدی را گشوده است: یادگیری ماشینی زبان طبیعی.
پیشآموزش LLMها شکلی از یادگیری ماشینی عددی سنتی است. یادگیری ماشینی زبان طبیعی که در اینجا مورد بحث قرار میگیرد، به نوع جدیدی از یادگیری ماشینی اشاره دارد که از LLMهای از پیش آموزشدیده استفاده میکند.
مدل پایه یادگیری ماشینی زبان طبیعی
یادگیری ماشینی زبان طبیعی جنبههایی دارد که شبیه به یادگیری ماشینی عددی مرسوم است و همچنین جنبههایی که کاملاً متفاوت هستند.
برای درک اولیه مفهوم یادگیری ماشینی زبان طبیعی، اجازه دهید یک مدل پایه را با تمرکز بر بخشهایی که شبیه به یادگیری ماشینی عددی سنتی هستند، توضیح دهیم.
از اینجا به بعد، یک مدل زبان بزرگ از پیش آموزشدیده (LLM) به عنوان LLM نامیده میشود. توجه داشته باشید که پارامترهای LLM در طول این فرآیند یادگیری به هیچ وجه تغییر نمیکنند.
مدل پایه یک مدل یادگیری نظارت شده است که مسائل طبقهبندی را هدف قرار میدهد.
برای دادههای یادگیری، چندین جفت از جملات ورودی و طبقهبندیهای آنها به عنوان پاسخ صحیح آماده میشوند.
به عنوان مثال، فرض کنید یک شرکت دارای دپارتمان امور عمومی و دپارتمان امور اداری است.
این دو دپارتمان نقشهای متمایزی دارند. برای جملات ورودی مانند "لامپ دفتر سوخته است"، "کارت دسترسیام را فراموش کردهام" یا "میخواهم سالن اصلی ستاد را رزرو کنم"، طبقهبندی نشان میدهد که کدام دپارتمان، امور عمومی یا امور اداری، مسئول است.
از این دادههای آموزشی، تنها جملات ورودی استخراج شده و به LLM داده میشوند.
در اینجا، ما به طور عمدی پاسخ را از طریق یک پرامپت سیستمی مانند "لطفاً بیان کنید که دپارتمان مسئول این پرسش، امور عمومی یا امور اداری است. هیچ حرفی به جز 'امور عمومی' یا 'امور اداری' را در پاسخ خود قرار ندهید" محدود میکنیم.
در ابتدا، LLM پاسخی بدون دانش این شرکت تولید میکند. به طور طبیعی، ممکن است نادرست باشد، یا گاهی اوقات به صورت تصادفی صحیح باشد.
برای هر پاسخ، یک سیستم آموزشی تعیین میکند که آیا پاسخ صحیح است یا نادرست. سپس، ترکیب جمله ورودی، پاسخ LLM و نتیجه قضاوت در یک پایگاه دانش ذخیره میشود.
این فرآیند برای حدود نیمی از دادههای آموزشی تکرار میشود.
برای نیمی باقیمانده از دادههای آموزشی، تمام اطلاعات ثبت شده در پایگاه دانش به پرامپت سیستمی برای LLM اضافه شده و همان فرآیند انجام میشود.
در این مرحله، پایگاه دانش شامل اطلاعاتی در مورد تقسیم وظایف بین دپارتمانهای امور عمومی و امور اداری این شرکت است، بنابراین احتمال یک پاسخ صحیح باید بیشتر از نیمه اول دادهها باشد.
به این ترتیب، سیستمی که LLM و یک پایگاه دانش را ترکیب میکند، میتواند تقسیم وظایف دپارتمانهای امور عمومی و امور اداری یک شرکت را یاد بگیرد.
مکانیسم یادگیری خود شبیه به یادگیری ماشینی عددی سنتی است. تفاوت در این است که نتایج یادگیری در پایگاه دانش منعکس میشوند، نه در پارامترهای شبکه عصبی درون LLM. علاوه بر این، پایگاه دانش زبان طبیعی را ثبت میکند، نه مقادیر عددی.
این مدل پایه یادگیری ماشینی زبان طبیعی است.
واقعگرایی مدل پایه
همانطور که کسانی که از LLM ها استفاده میکنند به سرعت متوجه خواهند شد، این مدل پایه فاقد واقعگرایی است.
این به این دلیل است که نیازی به تحمل زحمت داشتن یک سیستم آموزشی برای تعیین قضاوتهای درست/غلط نیست؛ میتوان به سادگی خود دادههای آموزشی را از ابتدا به پرامپت سیستمی وارد کرد.
با این حال، با به کارگیری مدل پایه و کمی تغییر در سناریو، واقعگرایی به دست میآید.
به عنوان مثال، تصور کنید که دپارتمان امور عمومی و دپارتمان امور اداری به طور مشترک یک میز استعلام ایجاد میکنند، و یک انسان به صورت دستی هر استعلام ورودی را به دپارتمان مناسب اختصاص میدهد.
یک سیستم ساده برای اضافه کردن این استعلامها و نتایج اختصاص آنها به یک پایگاه دانش ساخته میشود.
سپس، با استفاده از این پایگاه دانش، LLM میتواند جایگزین انسانها شود و استعلامهای جدید را به دپارتمانها اختصاص دهد.
در این حالت، اگر LLM به اشتباه یک استعلام را که برای امور اداری در نظر گرفته شده بود به امور عمومی اختصاص دهد، کارکنان امور عمومی استعلام را دوباره به امور اداری اختصاص خواهند داد. این اطلاعات تخصیص مجدد نیز در پایگاه دانش ثبت میشود.
این مکانیزم ساده برای ثبت گزارشهای تخصیص، همراه با یک LLM و یک پایگاه دانش، یک مدل یادگیری ماشینی زبان طبیعی نظارت شده واقعبینانه را تشکیل خواهد داد.
نکته کلیدی در اینجا، برای تکرار، این است که پارامترهای شبکه عصبی درون LLM به هیچ وجه تغییر نمیکنند. علاوه بر این، نتیجه یادگیری بازخورد مجموعهای از جملات زبان طبیعی است، نه مقادیر عددی.
و بدون شک، این سیستم شامل یادگیری ماشینی است، نه یادگیری انسانی.
بنابراین، این یک شکل جدید از یادگیری ماشینی است: یادگیری ماشینی زبان طبیعی.
نقاط قوت یادگیری ماشینی زبان طبیعی
برخلاف یادگیری ماشینی عددی، یادگیری زبان طبیعی مزایای بسیاری دارد.
به یک کلام، ویژگی متمایز آن، کارایی یادگیری بسیار بالا است.
یادگیری ماشینی عددی عموماً به مقدار زیادی داده آموزشی و یادگیری تکراری نیاز دارد. علاوه بر این، پیشپردازش دادههای آموزشی نیز ضروری است.
مقدار زیادی داده آموزشی لازم است زیرا ویژگیهای مورد نظر برای یادگیری در یک قطعه داده واحد گنجانده نشدهاند، بلکه در میان حجم وسیعی از دادهها توزیع شدهاند.
به همین دلیل، دادههای آموزشی به اندازهای معادل مربع ابعاد ویژگیهای واقعاً مورد نظر، لازم است.
یادگیری تکراری برای اطمینان از اینکه پارامترهای شبکه عصبی به طور مناسب و بدون افتادن در حداقلهای محلی یاد گرفته شوند، ضروری است، که این امر مستلزم نگه داشتن تغییر پارامتر در هر بازخورد در حد کم است.
پیشپردازش دادههای آموزشی، مانند نرمالسازی و استخراج لبه، برای برجستهسازی ویژگیهای واقعاً مورد نظر لازم است. این پیشپردازش نیز تلاش قابل توجهی میطلبد.
به عنوان مثال، اگر تقسیم وظایف بین دپارتمان امور اداری و دپارتمان امور عمومی قرار بود با استفاده از یک شبکه عصبی سنتی یاد گرفته شود، و ویژگیهای آن ۵۰ بعدی بودند، حداقل تقریباً ۱۰۰۰ یا بیشتر نمونه داده آموزشی مورد نیاز بود. علاوه بر این، این ۱۰۰۰+ نمونه داده ممکن بود نیاز به حدود ۱۰۰ بار یادگیری تکراری داشته باشند تا دقت یادگیری مناسب حاصل شود.
علاوه بر این، اگر این مجموعه از ۱۰۰۰ نمونه داده آموزشی شامل کلمات اضافی، تنوع در املای کلمات، یا تنوعی از ترتیب کلمات و ساختارهای جمله باشد، کارایی یادگیری کاهش مییابد و ممکن است ویژگیهای بیربطی یاد گرفته شوند.
بنابراین، پیشپردازش برای حذف کلمات اضافی، استانداردسازی اصطلاحات برای حذف تنوعها، و یکپارچهسازی ترتیب کلمات و نحو ضروری است.
در مقابل، یادگیری ماشینی زبان طبیعی به داده آموزشی کمتری نیاز دارد، نیازی به تکرار با همان داده آموزشی ندارد، و اغلب نیازی به پیشپردازش ندارد.
اگر ویژگیهای تقسیم وظایف بین دپارتمان امور اداری و دپارتمان امور عمومی ۵۰ بعدی باشند، ۵۰ قطعه اطلاعات متناظر با هر بعد کافی است.
علاوه بر این، این به معنای نیاز به ۵۰ جمله جداگانه نیست.
یک جمله واحد مانند "وظایف مربوط به A، B، C، و D توسط دپارتمان امور اداری انجام میشود" میتواند چهار بعد اطلاعاتی را در بر گیرد.
علاوه بر این، با انتزاع زبان، اطلاعات از ابعاد متعدد میتواند جمعآوری شود. جملهای مانند "نگهداری از لوازم مصرفی و امکانات ساختمان بر عهده دپارتمان امور اداری است" طیف وسیعی از اطلاعات ابعادی، از جمله تعویض لامپ و خرابی درب اتوماتیک را جمعآوری میکند.
میتوان گفت این انتزاع با بهرهگیری از دانش از پیش آموزشدیده و قابلیتهای استدلالی LLM، دادههای آموزشی را کاهش میدهد.
و اساساً، یادگیری زبان طبیعی نیازی به یادگیری تکراری ندارد. هنگامی که جمله ذکر شده به پایگاه دانش اضافه شود، یادگیری کامل است.
علاوه بر این، پیشپردازش دانش غیرضروری است. حتی اگر توضیحات دپارتمان امور اداری یا دپارتمان امور عمومی در متون مختلف مخلوط شده باشند، همچنان میتوانند به عنوان دانش مورد استفاده قرار گیرند.
یا، همانند مثال قبلی، دادههای خام مانند سوابق استعلام و انتساب را میتوان فوراً بدون پیشپردازش به عنوان داده آموزشی استفاده کرد.
بنابراین، یادگیری ماشینی زبان طبیعی میتواند بسیار کارآمدتر از یادگیری ماشینی عددی یاد بگیرد.
نتیجهگیری
در مقایسه با قابلیتهای محاسبات عددی پرسرعت رایانهها، توانایی پردازش زبان طبیعی مدلهای زبان بزرگ کاملاً کند است.
با این حال، یادگیری ماشینی زبان طبیعی امکان یادگیری کارآمد را فراهم میکند که بسیار فراتر از شکاف بین محاسبات عددی پرسرعت و پردازش کند زبان طبیعی است.
علاوه بر این، مدلهای زبان بزرگ، که از طریق یادگیری عددی پیشرفتهای شگفتانگیزی داشتهاند، طبق قوانین مقیاسبندی، به نظر میرسد که به محدودیتهای بهبود عملکرد از طریق مقیاسگذاری ساده نزدیک میشوند.
در چنین سناریویی، بسیار محتمل است که تمرکز به سمت افزایش قابلیتها از طریق یادگیری ماشینی زبان طبیعی تغییر کند.