پرش به محتوا
این مقاله با استفاده از هوش مصنوعی از ژاپنی ترجمه شده است
به ژاپنی بخوانید
این مقاله در مالکیت عمومی (CC0) است. آزادانه از آن استفاده کنید. CC0 1.0 Universal

یادگیری ماشینی زبان طبیعی

یادگیری ماشینی سنتی در چارچوبی عمل می‌کند که در آن رایانه‌ها، که در محاسبات عددی مهارت دارند، از داده‌های عددی یاد می‌گیرند و پارامترهای عددی را به دست می‌آورند.

از سوی دیگر، ما قادر به یادگیری نه تنها از طریق مکانیسم‌های عددی، بلکه از طریق زبان نیز هستیم. ما تجربیات را به صورت کلمات سازماندهی و ثبت می‌کنیم، سپس آن کلمات را به یاد می‌آوریم یا می‌خوانیم تا از آنها استفاده کنیم.

مدل‌های زبان بزرگ نیز می‌توانند به همین ترتیب دانش را با استفاده از کلمات توصیف کنند و با خواندن آنها از کلمات استفاده کنند.

با بهره‌گیری از مدل‌های زبان بزرگ، که پردازنده‌های زبان طبیعی هستند، یادگیری ماشینی مبتنی بر زبان طبیعی، به جای صرفاً یادگیری ماشینی مبتنی بر عدد، امکان‌پذیر می‌شود.

در نتیجه، ظهور مدل‌های زبان بزرگ، زمینه جدیدی را گشوده است: یادگیری ماشینی زبان طبیعی.

پیش‌آموزش مدل‌های زبان بزرگ، یادگیری ماشینی عددی سنتی است. یادگیری ماشینی زبان طبیعی که در اینجا توصیف می‌شود، به شکل جدیدی از یادگیری ماشینی اشاره دارد که از مدل‌های زبان بزرگ از پیش‌آموزش‌دیده استفاده می‌کند.

مدل پایه یادگیری ماشینی زبان طبیعی

یادگیری ماشینی زبان طبیعی دارای جنبه‌هایی است که هم شبیه به یادگیری ماشینی عددی سنتی است و هم کاملاً با آن متفاوت است.

ابتدا، برای درک تصویری از یادگیری ماشینی زبان طبیعی، بخش‌هایی را که شبیه به یادگیری ماشینی عددی سنتی هستند، به عنوان یک مدل پایه توضیح خواهیم داد.

از این پس، به مدل زبان بزرگ از پیش‌آموزش‌دیده، LLM اشاره خواهیم کرد. لطفاً توجه داشته باشید که پارامترهای LLM در طول این فرآیند یادگیری به هیچ وجه تغییر نمی‌کنند.

مدل پایه، یادگیری نظارت‌شده است که یک مشکل طبقه‌بندی را هدف قرار می‌دهد.

جفت‌های متعددی از جملات ورودی و طبقه‌بندی‌های آنها به عنوان پاسخ‌های صحیح برای داده‌های آموزشی آماده می‌شوند.

به عنوان مثال، فرض کنید شرکتی دارای دپارتمان امور عمومی و دپارتمان امور اداری است.

این دو دپارتمان تقسیم وظایف دارند. برای جملات ورودی مانند "لامپ دفتر سوخته است"، "کارت دسترسم را فراموش کرده‌ام" یا "می‌خواهم سالن اصلی ستاد مرکزی را رزرو کنم"، طبقه‌بندی نشان می‌دهد که دپارتمان امور عمومی یا دپارتمان امور اداری مسئول است.

از این داده‌های آموزشی، تنها جملات ورودی استخراج شده و به LLM داده می‌شوند.

در اینجا، به عنوان یک پرامپت سیستمی، ما عمداً پاسخ را با بیان این جمله محدود می‌کنیم: "لطفاً پاسخ دهید که کدام دپارتمان، امور عمومی یا امور اداری، مسئول این پرسش است. هیچ کاراکتری به جز 'امور عمومی' یا 'امور اداری' را در پاسخ خود وارد نکنید."

در ابتدا، LLM بدون هیچ دانشی از این شرکت، پاسخ‌هایی تولید خواهد کرد. طبیعتاً، برخی از پاسخ‌ها نادرست خواهند بود، در حالی که برخی دیگر ممکن است به صورت تصادفی صحیح باشند.

برای هر پاسخ، سیستم معلم تعیین می‌کند که آیا پاسخ صحیح است یا نادرست. سپس، ترکیب جمله ورودی، پاسخ LLM و نتیجه قضاوت در یک پایگاه دانش ذخیره می‌شود.

این فرآیند برای حدود نیمی از داده‌های آموزشی تکرار می‌شود.

برای نیمه باقیمانده داده‌های آموزشی، همین فرآیند انجام می‌شود، اما این بار تمام اطلاعات ثبت شده در پایگاه دانش به پرامپت سیستمی برای LLM اضافه می‌شود.

در این مرحله، پایگاه دانش حاوی اطلاعاتی در مورد تقسیم وظایف بین دپارتمان‌های امور عمومی و امور اداری این شرکت است، بنابراین احتمال دریافت پاسخ‌های صحیح باید بیشتر از نیمه اول داده‌ها باشد.

به این ترتیب، سیستمی که LLM و پایگاه دانش را ترکیب می‌کند، می‌تواند تقسیم وظایف بین دپارتمان‌های امور عمومی و امور اداری این شرکت را یاد بگیرد.

مکانیسم یادگیری خود شبیه به یادگیری ماشینی عددی سنتی است. تفاوت در این است که نتایج یادگیری در پایگاه دانش منعکس می‌شوند، نه در پارامترهای شبکه عصبی درون LLM. و، زبان طبیعی، نه اعداد، در پایگاه دانش ثبت می‌شود.

این مدل پایه یادگیری ماشینی زبان طبیعی است.

واقعیت مدل پایه

همانطور که هر کسی که از LLMها استفاده می‌کند به سرعت متوجه می‌شود، این مدل پایه فاقد واقع‌گرایی است.

این بدان دلیل است که به جای اینکه زحمت بکشیم و یک سیستم معلم داشته باشیم تا پاسخ‌های صحیح و غلط را تعیین کند، می‌توانیم به سادگی داده‌های آموزشی را از همان ابتدا به پرامپت سیستم وارد کنیم.

با این حال، با اعمال مدل پایه و کمی تغییر سناریو، واقع‌گرایی پیدا می‌کند.

برای مثال، فرض کنید دپارتمان‌های امور عمومی و امور اداری به صورت مشترک یک میز پاسخگویی ایجاد می‌کنند و انسان‌ها به صورت فردی درخواست‌های ورودی را به دپارتمان مناسب ارجاع می‌دهند.

یک سیستم ساده می‌تواند برای اضافه کردن این درخواست‌ها و نتایج ارجاع آنها به یک پایگاه دانش ایجاد شود.

سپس، با استفاده از این پایگاه دانش، LLM می‌تواند وظیفه ارجاع درخواست‌های جدید به دپارتمان‌ها را از انسان‌ها به عهده بگیرد.

در این حالت، اگر LLM به اشتباه یک درخواست مربوط به امور اداری را به امور عمومی ارجاع دهد، مسئول امور عمومی، درخواست را دوباره به امور اداری ارجاع خواهد داد. این اطلاعات ارجاع مجدد نیز در پایگاه دانش ثبت می‌شود.

این مکانیسم ساده برای ثبت گزارش‌های ارجاع، در ترکیب با LLM و سیستم پایگاه دانش، به یک مدل نظارت شده واقع‌گرایانه برای یادگیری ماشینی زبان طبیعی تبدیل می‌شود.

نکته کلیدی در اینجا، دوباره تأکید می‌شود، این است که پارامترهای شبکه عصبی درون LLM به هیچ وجه تغییر نمی‌کنند. و نتایج یادگیری بازخوردی، مقادیر عددی نیستند، بلکه مجموعه‌ای از جملات زبان طبیعی هستند.

علاوه بر این، این سیستم بدون شک یک سیستم یادگیری ماشینی است، نه یک سیستم یادگیری انسانی.

بنابراین، این یک شکل جدید از یادگیری ماشینی است: یادگیری ماشینی از طریق زبان طبیعی.

نقاط قوت یادگیری ماشینی زبان طبیعی

بر خلاف یادگیری ماشینی عددی، یادگیری زبان طبیعی مزایای بسیاری دارد.

به یک کلام، ویژگی اصلی آن، کارایی یادگیری فوق‌العاده آن است.

یادگیری ماشینی عددی به طور کلی به مقدار زیادی داده آموزشی و یادگیری تکراری نیاز دارد. پیش‌پردازش داده‌های آموزشی نیز ضروری است.

مقدار زیادی داده آموزشی مورد نیاز است زیرا ویژگی‌هایی که فرد می‌خواهد یاد بگیرد در یک قطعه داده واحد گنجانده نشده‌اند، بلکه در حجم زیادی از داده‌ها توزیع شده‌اند.

به همین دلیل، داده‌های آموزشی به اندازه مربع ابعاد ویژگی‌های واقعاً مورد نظر، مورد نیاز است.

یادگیری تکراری ضروری است زیرا تغییر در پارامترها در طول یک حلقه بازخورد واحد باید کوچک باشد تا اطمینان حاصل شود که پارامترهای شبکه عصبی به درستی و بدون افتادن در بهینه‌های محلی یاد گرفته می‌شوند.

پیش‌پردازش داده‌های آموزشی، مانند نرمال‌سازی و استخراج لبه، برای برجسته کردن ویژگی‌های واقعاً مورد نظر ضروری است. این پیش‌پردازش نیز به تلاش قابل توجهی نیاز دارد.

به عنوان مثال، اگر تقسیم وظایف بین دپارتمان‌های اداری و عمومی قرار بود با استفاده از یک شبکه عصبی سنتی یاد گرفته شود، و ویژگی‌های آن ۵۰ بُعدی بود، حداقل ۱۰۰۰ یا بیشتر نقطه داده آموزشی مورد نیاز خواهد بود. علاوه بر این، این ۱۰۰۰+ نقطه داده ممکن است نیاز به حدود ۱۰۰ بار تکرار داشته باشند تا دقت یادگیری کافی به دست آید.

علاوه بر این، اگر این ۱۰۰۰ نقطه داده حاوی کلمات اضافی، تغییرات در املای کلمات، یا تنوعی از ترتیب کلمات و نحو باشند، کارایی یادگیری کاهش می‌یابد، یا ویژگی‌های نامربوط یاد گرفته خواهند شد.

بنابراین، پیش‌پردازش برای حذف کلمات اضافی، استانداردسازی واژگان برای از بین بردن تغییرات، و یکپارچه‌سازی ترتیب کلمات و نحو، ضروری است.

از سوی دیگر، یادگیری ماشینی زبان طبیعی به داده‌های آموزشی کمتری نیاز دارد، نیازی به تکرار با همان داده‌های آموزشی ندارد، و در بسیاری از موارد، نیازی به پیش‌پردازش ندارد.

اگر ویژگی‌های تقسیم وظایف بین دپارتمان‌های اداری و عمومی ۵۰ بُعدی باشند، ۵۰ قطعه اطلاعات مربوط به هر بُعد اغلب کافی است.

علاوه بر این، این بدان معنا نیست که ۵۰ جمله جداگانه مورد نیاز است.

یک جمله واحد مانند "وظایف مربوط به A، B، C، و D توسط دپارتمان اداری انجام می‌شود" می‌تواند اطلاعات چهار بُعد را شامل شود.

علاوه بر این، با انتزاع زبان، اطلاعات از ابعاد متعدد را می‌توان جمع‌آوری کرد. یک جمله واحد مانند "دپارتمان اداری مسئول مواد مصرفی ساختمان و نگهداری تجهیزات است" اطلاعات از طیف گسترده‌ای از ابعاد، از جمله تعویض لامپ و خرابی درب خودکار را جمع‌آوری می‌کند.

این انتزاع از دانش از پیش‌آموزش‌دیده و قابلیت‌های استدلال LLM بهره می‌برد، در نتیجه میزان داده‌های آموزشی مورد نیاز را کاهش می‌دهد.

و، اساساً، یادگیری زبان طبیعی به یادگیری تکراری نیاز ندارد. هنگامی که جمله ذکر شده به پایگاه دانش اضافه شود، یادگیری کامل می‌شود.

علاوه بر این، پیش‌پردازش دانش ضروری نیست. حتی اگر توصیفاتی از دپارتمان‌های اداری یا عمومی با جملات مختلف دیگر مخلوط شوند، باز هم می‌توانند به عنوان دانش استفاده شوند.

متناوباً، داده‌های خام، مانند گزارش‌های درخواست‌ها و تخصیص‌ها مانند مثال قبلی، می‌توانند بلافاصله به عنوان داده آموزشی بدون پیش‌پردازش مورد استفاده قرار گیرند.

به این ترتیب، یادگیری ماشینی زبان طبیعی می‌تواند بسیار کارآمدتر از یادگیری ماشینی عددی یاد بگیرد.

نتیجه‌گیری

در مقایسه با قابلیت‌های محاسبات عددی با سرعت بالا در رایانه‌ها، قابلیت‌های پردازش زبان طبیعی مدل‌های زبان بزرگ نسبتاً کند هستند.

با این حال، یادگیری ماشینی زبان طبیعی در مقایسه با یادگیری ماشینی عددی، امکان یادگیری کارآمدتری را فراهم می‌کند.

این کارایی بسیار بیشتر از شکاف بین قابلیت‌های محاسبات عددی با سرعت بالا و قابلیت‌های کند پردازش زبان طبیعی است.

علاوه بر این، مدل‌های زبان بزرگ، که تکامل شگفت‌انگیزی را از طریق یادگیری عددی تجربه کرده‌اند، به نظر می‌رسد طبق قوانین مقیاس‌بندی، در بهبود قابلیت‌ها از طریق صرفاً افزایش مقیاس به حدی نزدیک می‌شوند.

در این صورت، بسیار محتمل است که تمرکز به سمت بهبود قابلیت‌ها از طریق یادگیری ماشینی زبان طبیعی تغییر یابد.