پرش به محتوا
این مقاله با استفاده از هوش مصنوعی از ژاپنی ترجمه شده است
به ژاپنی بخوانید
این مقاله در مالکیت عمومی (CC0) است. آزادانه از آن استفاده کنید. CC0 1.0 Universal

یادگیری ماشینی زبان طبیعی

یادگیری ماشینی سنتی در چارچوبی عمل می‌کند که در آن رایانه‌ها، که در محاسبات عددی مهارت دارند، با استفاده از داده‌های عددی یاد می‌گیرند و پارامترهای کمی‌شده را به دست می‌آورند.

با این حال، انسان‌ها قادرند نه تنها از طریق مکانیسم‌های عددی، بلکه از طریق زبان نیز یاد بگیرند. ما تجربیات را در قالب کلمات سازماندهی و ثبت می‌کنیم و سپس آن کلمات را به یاد می‌آوریم، می‌خوانیم و استفاده می‌کنیم.

مدل‌های زبان بزرگ (LLMها) نیز می‌توانند به همین ترتیب دانش را در کلمات توصیف کرده و با خواندن کلمات از دانش استفاده کنند.

با استفاده از LLMها به عنوان پردازشگرهای زبان طبیعی، یادگیری ماشینی مبتنی بر زبان طبیعی، به جای تنها یادگیری ماشینی مبتنی بر اعداد، امکان‌پذیر می‌شود.

به همین دلیل، ظهور LLMها حوزه جدیدی را گشوده است: یادگیری ماشینی زبان طبیعی.

پیش‌آموزش LLMها شکلی از یادگیری ماشینی عددی سنتی است. یادگیری ماشینی زبان طبیعی که در اینجا مورد بحث قرار می‌گیرد، به نوع جدیدی از یادگیری ماشینی اشاره دارد که از LLMهای از پیش آموزش‌دیده استفاده می‌کند.

مدل پایه یادگیری ماشینی زبان طبیعی

یادگیری ماشینی زبان طبیعی جنبه‌هایی دارد که شبیه به یادگیری ماشینی عددی مرسوم است و همچنین جنبه‌هایی که کاملاً متفاوت هستند.

برای درک اولیه مفهوم یادگیری ماشینی زبان طبیعی، اجازه دهید یک مدل پایه را با تمرکز بر بخش‌هایی که شبیه به یادگیری ماشینی عددی سنتی هستند، توضیح دهیم.

از اینجا به بعد، یک مدل زبان بزرگ از پیش آموزش‌دیده (LLM) به عنوان LLM نامیده می‌شود. توجه داشته باشید که پارامترهای LLM در طول این فرآیند یادگیری به هیچ وجه تغییر نمی‌کنند.

مدل پایه یک مدل یادگیری نظارت شده است که مسائل طبقه‌بندی را هدف قرار می‌دهد.

برای داده‌های یادگیری، چندین جفت از جملات ورودی و طبقه‌بندی‌های آنها به عنوان پاسخ صحیح آماده می‌شوند.

به عنوان مثال، فرض کنید یک شرکت دارای دپارتمان امور عمومی و دپارتمان امور اداری است.

این دو دپارتمان نقش‌های متمایزی دارند. برای جملات ورودی مانند "لامپ دفتر سوخته است"، "کارت دسترسی‌ام را فراموش کرده‌ام" یا "می‌خواهم سالن اصلی ستاد را رزرو کنم"، طبقه‌بندی نشان می‌دهد که کدام دپارتمان، امور عمومی یا امور اداری، مسئول است.

از این داده‌های آموزشی، تنها جملات ورودی استخراج شده و به LLM داده می‌شوند.

در اینجا، ما به طور عمدی پاسخ را از طریق یک پرامپت سیستمی مانند "لطفاً بیان کنید که دپارتمان مسئول این پرسش، امور عمومی یا امور اداری است. هیچ حرفی به جز 'امور عمومی' یا 'امور اداری' را در پاسخ خود قرار ندهید" محدود می‌کنیم.

در ابتدا، LLM پاسخی بدون دانش این شرکت تولید می‌کند. به طور طبیعی، ممکن است نادرست باشد، یا گاهی اوقات به صورت تصادفی صحیح باشد.

برای هر پاسخ، یک سیستم آموزشی تعیین می‌کند که آیا پاسخ صحیح است یا نادرست. سپس، ترکیب جمله ورودی، پاسخ LLM و نتیجه قضاوت در یک پایگاه دانش ذخیره می‌شود.

این فرآیند برای حدود نیمی از داده‌های آموزشی تکرار می‌شود.

برای نیمی باقی‌مانده از داده‌های آموزشی، تمام اطلاعات ثبت شده در پایگاه دانش به پرامپت سیستمی برای LLM اضافه شده و همان فرآیند انجام می‌شود.

در این مرحله، پایگاه دانش شامل اطلاعاتی در مورد تقسیم وظایف بین دپارتمان‌های امور عمومی و امور اداری این شرکت است، بنابراین احتمال یک پاسخ صحیح باید بیشتر از نیمه اول داده‌ها باشد.

به این ترتیب، سیستمی که LLM و یک پایگاه دانش را ترکیب می‌کند، می‌تواند تقسیم وظایف دپارتمان‌های امور عمومی و امور اداری یک شرکت را یاد بگیرد.

مکانیسم یادگیری خود شبیه به یادگیری ماشینی عددی سنتی است. تفاوت در این است که نتایج یادگیری در پایگاه دانش منعکس می‌شوند، نه در پارامترهای شبکه عصبی درون LLM. علاوه بر این، پایگاه دانش زبان طبیعی را ثبت می‌کند، نه مقادیر عددی.

این مدل پایه یادگیری ماشینی زبان طبیعی است.

واقع‌گرایی مدل پایه

همانطور که کسانی که از LLM ها استفاده می‌کنند به سرعت متوجه خواهند شد، این مدل پایه فاقد واقع‌گرایی است.

این به این دلیل است که نیازی به تحمل زحمت داشتن یک سیستم آموزشی برای تعیین قضاوت‌های درست/غلط نیست؛ می‌توان به سادگی خود داده‌های آموزشی را از ابتدا به پرامپت سیستمی وارد کرد.

با این حال، با به کارگیری مدل پایه و کمی تغییر در سناریو، واقع‌گرایی به دست می‌آید.

به عنوان مثال، تصور کنید که دپارتمان امور عمومی و دپارتمان امور اداری به طور مشترک یک میز استعلام ایجاد می‌کنند، و یک انسان به صورت دستی هر استعلام ورودی را به دپارتمان مناسب اختصاص می‌دهد.

یک سیستم ساده برای اضافه کردن این استعلام‌ها و نتایج اختصاص آن‌ها به یک پایگاه دانش ساخته می‌شود.

سپس، با استفاده از این پایگاه دانش، LLM می‌تواند جایگزین انسان‌ها شود و استعلام‌های جدید را به دپارتمان‌ها اختصاص دهد.

در این حالت، اگر LLM به اشتباه یک استعلام را که برای امور اداری در نظر گرفته شده بود به امور عمومی اختصاص دهد، کارکنان امور عمومی استعلام را دوباره به امور اداری اختصاص خواهند داد. این اطلاعات تخصیص مجدد نیز در پایگاه دانش ثبت می‌شود.

این مکانیزم ساده برای ثبت گزارش‌های تخصیص، همراه با یک LLM و یک پایگاه دانش، یک مدل یادگیری ماشینی زبان طبیعی نظارت شده واقع‌بینانه را تشکیل خواهد داد.

نکته کلیدی در اینجا، برای تکرار، این است که پارامترهای شبکه عصبی درون LLM به هیچ وجه تغییر نمی‌کنند. علاوه بر این، نتیجه یادگیری بازخورد مجموعه‌ای از جملات زبان طبیعی است، نه مقادیر عددی.

و بدون شک، این سیستم شامل یادگیری ماشینی است، نه یادگیری انسانی.

بنابراین، این یک شکل جدید از یادگیری ماشینی است: یادگیری ماشینی زبان طبیعی.

نقاط قوت یادگیری ماشینی زبان طبیعی

برخلاف یادگیری ماشینی عددی، یادگیری زبان طبیعی مزایای بسیاری دارد.

به یک کلام، ویژگی متمایز آن، کارایی یادگیری بسیار بالا است.

یادگیری ماشینی عددی عموماً به مقدار زیادی داده آموزشی و یادگیری تکراری نیاز دارد. علاوه بر این، پیش‌پردازش داده‌های آموزشی نیز ضروری است.

مقدار زیادی داده آموزشی لازم است زیرا ویژگی‌های مورد نظر برای یادگیری در یک قطعه داده واحد گنجانده نشده‌اند، بلکه در میان حجم وسیعی از داده‌ها توزیع شده‌اند.

به همین دلیل، داده‌های آموزشی به اندازه‌ای معادل مربع ابعاد ویژگی‌های واقعاً مورد نظر، لازم است.

یادگیری تکراری برای اطمینان از اینکه پارامترهای شبکه عصبی به طور مناسب و بدون افتادن در حداقل‌های محلی یاد گرفته شوند، ضروری است، که این امر مستلزم نگه داشتن تغییر پارامتر در هر بازخورد در حد کم است.

پیش‌پردازش داده‌های آموزشی، مانند نرمال‌سازی و استخراج لبه، برای برجسته‌سازی ویژگی‌های واقعاً مورد نظر لازم است. این پیش‌پردازش نیز تلاش قابل توجهی می‌طلبد.

به عنوان مثال، اگر تقسیم وظایف بین دپارتمان امور اداری و دپارتمان امور عمومی قرار بود با استفاده از یک شبکه عصبی سنتی یاد گرفته شود، و ویژگی‌های آن ۵۰ بعدی بودند، حداقل تقریباً ۱۰۰۰ یا بیشتر نمونه داده آموزشی مورد نیاز بود. علاوه بر این، این ۱۰۰۰+ نمونه داده ممکن بود نیاز به حدود ۱۰۰ بار یادگیری تکراری داشته باشند تا دقت یادگیری مناسب حاصل شود.

علاوه بر این، اگر این مجموعه از ۱۰۰۰ نمونه داده آموزشی شامل کلمات اضافی، تنوع در املای کلمات، یا تنوعی از ترتیب کلمات و ساختارهای جمله باشد، کارایی یادگیری کاهش می‌یابد و ممکن است ویژگی‌های بی‌ربطی یاد گرفته شوند.

بنابراین، پیش‌پردازش برای حذف کلمات اضافی، استانداردسازی اصطلاحات برای حذف تنوع‌ها، و یکپارچه‌سازی ترتیب کلمات و نحو ضروری است.

در مقابل، یادگیری ماشینی زبان طبیعی به داده آموزشی کمتری نیاز دارد، نیازی به تکرار با همان داده آموزشی ندارد، و اغلب نیازی به پیش‌پردازش ندارد.

اگر ویژگی‌های تقسیم وظایف بین دپارتمان امور اداری و دپارتمان امور عمومی ۵۰ بعدی باشند، ۵۰ قطعه اطلاعات متناظر با هر بعد کافی است.

علاوه بر این، این به معنای نیاز به ۵۰ جمله جداگانه نیست.

یک جمله واحد مانند "وظایف مربوط به A، B، C، و D توسط دپارتمان امور اداری انجام می‌شود" می‌تواند چهار بعد اطلاعاتی را در بر گیرد.

علاوه بر این، با انتزاع زبان، اطلاعات از ابعاد متعدد می‌تواند جمع‌آوری شود. جمله‌ای مانند "نگهداری از لوازم مصرفی و امکانات ساختمان بر عهده دپارتمان امور اداری است" طیف وسیعی از اطلاعات ابعادی، از جمله تعویض لامپ و خرابی درب اتوماتیک را جمع‌آوری می‌کند.

می‌توان گفت این انتزاع با بهره‌گیری از دانش از پیش آموزش‌دیده و قابلیت‌های استدلالی LLM، داده‌های آموزشی را کاهش می‌دهد.

و اساساً، یادگیری زبان طبیعی نیازی به یادگیری تکراری ندارد. هنگامی که جمله ذکر شده به پایگاه دانش اضافه شود، یادگیری کامل است.

علاوه بر این، پیش‌پردازش دانش غیرضروری است. حتی اگر توضیحات دپارتمان امور اداری یا دپارتمان امور عمومی در متون مختلف مخلوط شده باشند، همچنان می‌توانند به عنوان دانش مورد استفاده قرار گیرند.

یا، همانند مثال قبلی، داده‌های خام مانند سوابق استعلام و انتساب را می‌توان فوراً بدون پیش‌پردازش به عنوان داده آموزشی استفاده کرد.

بنابراین، یادگیری ماشینی زبان طبیعی می‌تواند بسیار کارآمدتر از یادگیری ماشینی عددی یاد بگیرد.

نتیجه‌گیری

در مقایسه با قابلیت‌های محاسبات عددی پرسرعت رایانه‌ها، توانایی پردازش زبان طبیعی مدل‌های زبان بزرگ کاملاً کند است.

با این حال، یادگیری ماشینی زبان طبیعی امکان یادگیری کارآمد را فراهم می‌کند که بسیار فراتر از شکاف بین محاسبات عددی پرسرعت و پردازش کند زبان طبیعی است.

علاوه بر این، مدل‌های زبان بزرگ، که از طریق یادگیری عددی پیشرفت‌های شگفت‌انگیزی داشته‌اند، طبق قوانین مقیاس‌بندی، به نظر می‌رسد که به محدودیت‌های بهبود عملکرد از طریق مقیاس‌گذاری ساده نزدیک می‌شوند.

در چنین سناریویی، بسیار محتمل است که تمرکز به سمت افزایش قابلیت‌ها از طریق یادگیری ماشینی زبان طبیعی تغییر کند.