پرش به محتوا
این مقاله با استفاده از هوش مصنوعی از ژاپنی ترجمه شده است
به ژاپنی بخوانید
این مقاله در مالکیت عمومی (CC0) است. آزادانه از آن استفاده کنید. CC0 1.0 Universal

مکانیسم توجه به عنوان هوش مجازی خرد

هوش مصنوعی مولد کنونی، فناوری هوش مصنوعی است که با اختراع ترنسفورمر به عنوان یک پیشرفت بزرگ، شکوفا شد.

مکانیسم توجه را می‌توان ویژگی اصلی ترنسفورمر توصیف کرد. این نکته به طور خلاصه در عنوان مقاله معرفی ترنسفورمر بیان شده است: «Attention Is All You Need» (تنها چیزی که نیاز دارید، توجه است).

پیشینه این امر این است که محققان هوش مصنوعی در آن زمان تلاش‌های گوناگونی انجام می‌دادند و درگیر آزمون و خطا بودند تا هوش مصنوعی را قادر سازند زبان طبیعی را با مهارت انسان‌ها پردازش کند، روش‌های موفق را نام‌گذاری کرده و مقالاتی در مورد آن‌ها منتشر می‌کردند.

بسیاری از محققان باور داشتند که با ترکیب این مکانیسم‌های مؤثر متعدد به روش‌های گوناگون، می‌توانند به تدریج هوش مصنوعی‌ای بسازند که قادر به پردازش زبان طبیعی مانند انسان‌ها باشد. آن‌ها بر کشف مکانیسم‌های جدیدی تمرکز داشتند که بتوانند در ترکیب با دیگران عمل کنند و به دنبال یافتن ترکیبات بهینه این مکانیسم‌ها بودند.

با این حال، ترنسفورمر این دیدگاه سنتی را دگرگون کرد. این پیام که نیازی به ترکیب مکانیسم‌های مختلف نیست و تنها مکانیسم توجه کافی است، به وضوح در عنوان مقاله مشخص بود.

در حالی که خود ترنسفورمر قطعاً مکانیسم‌های مختلفی را در خود جای داده است، اما شکی نیست که مکانیسم توجه در میان آن‌ها به ویژه پیشگامانه و متمایز بود.

نمای کلی مکانیسم توجه

مکانیسم توجه سیستمی است که به هوش مصنوعی اجازه می‌دهد تا هنگام پردازش یک کلمه خاص در زبان طبیعی، بیاموزد که از میان کلمات بسیاری که در جملات قبلی وجود دارند، به کدام یک باید توجه کند.

این امر هوش مصنوعی را قادر می‌سازد تا به دقت درک کند که یک کلمه به چه چیزی اشاره دارد، برای مثال، هنگام مواجهه با کلمات اشاره‌ای مانند "این"، "آن" یا "مذکور" (که به کلمه‌ای در جمله قبلی اشاره می‌کند)، یا مراجع مکانی مانند "جمله آغازین"، "دومین مثال ذکر شده" یا "پاراگراف قبلی".

علاوه بر این، می‌تواند صفات را حتی اگر در یک جمله از هم دور باشند، به درستی تفسیر کند و حتی در متون طولانی، می‌تواند کلمات را بدون از دست دادن بافتار (context) مربوط به کلمه فعلی تفسیر کند و از گم شدن آن در میان جملات دیگر جلوگیری نماید.

این همان فایده "توجه" است.

برعکس، این به معنای آن است که هنگام تفسیر کلمه در حال پردازش، کلمات غیرضروری پوشانده شده و از تفسیر حذف می‌شوند.

با نگه داشتن تنها کلمات ضروری برای تفسیر یک کلمه معین و حذف کلمات نامربوط، مجموعه کلمات برای تفسیر به تعداد کمی محدود می‌شود، مهم نیست متن چقدر طولانی باشد، بنابراین از رقیق شدن چگالی تفسیری جلوگیری می‌شود.

هوش مجازی

حال، بحث را کمی تغییر دهیم، من در حال تأمل درباره مفهوم هوش مجازی بوده‌ام.

در حال حاضر، هنگام استفاده از هوش مصنوعی مولد برای کسب‌وکار، اگر تمام اطلاعات یک شرکت به صورت یکجا جمع‌آوری شده و به عنوان یک پایگاه دانش واحد به هوش مصنوعی داده شود، حجم بالای دانش می‌تواند طاقت‌فرسا شود و منجر به پدیده‌ای گردد که هوش مصنوعی نمی‌تواند آن را به درستی پردازش کند.

به همین دلیل، مؤثرتر است که دانش بر اساس وظایف جدا شود، یعنی برای هر وظیفه چت‌های هوش مصنوعی جداگانه آماده شود یا ابزارهای هوش مصنوعی متخصص برای عملیات خاص ایجاد گردد.

در نتیجه، هنگام انجام وظایف پیچیده، لازم است که این چت‌های هوش مصنوعی یا ابزارهای هوش مصنوعی، که هر یک دارای دانش مجزای خود هستند، با یکدیگر ترکیب شوند.

در حالی که این یک محدودیت فعلی هوش مصنوعی مولد است، اساساً حتی با هوش مصنوعی مولد آینده، تمرکز صرفاً بر دانشی که برای یک وظیفه خاص لازم است، باید منجر به دقت بالاتری شود.

به جای آن، من معتقدم که هوش مصنوعی مولد آینده قادر خواهد بود به صورت داخلی دانش لازم را بر اساس موقعیت تشخیص داده و استفاده کند، حتی بدون اینکه انسان‌ها مجبور به تقسیم‌بندی آن دانش باشند.

این قابلیت همان هوش مجازی است. این مانند یک ماشین مجازی است که می‌تواند چندین سیستم عامل متفاوت را روی یک کامپیوتر واحد اجرا کند. به این معناست که در یک هوش واحد، چندین هوش مجازی با تخصص‌های متفاوت می‌توانند عمل کنند.

حتی هوش مصنوعی مولد کنونی نیز می‌تواند گفتگوهای بین چندین نفر را شبیه‌سازی کند یا داستان‌هایی با حضور چندین شخصیت خلق کند. بنابراین، هوش مجازی یک قابلیت خاص نیست، بلکه امتدادی از هوش مصنوعی مولد فعلی است.

هوش مجازی خرد

مکانیسم هوش مجازی که دانش لازم را بر اساس وظیفه محدود می‌کند، چیزی شبیه به مکانیسم توجه را انجام می‌دهد.

به عبارت دیگر، این مکانیسم مشابه مکانیسم توجه است زیرا بر اساس وظیفه‌ای که در حال حاضر اجرا می‌شود، تنها بر دانش مربوطه تمرکز کرده و آن را پردازش می‌کند.

برعکس، می‌توان گفت که مکانیسم توجه، مکانیزمی است که چیزی شبیه به هوش مجازی را تحقق می‌بخشد. با این حال، در حالی که هوش مجازی‌ای که من در نظر دارم، دانش مربوطه را از مجموعه‌ای از دانش‌ها انتخاب می‌کند، مکانیسم توجه در واحد مجموعه‌ای از کلمات عمل می‌کند.

به همین دلیل، می‌توان مکانیسم توجه را هوش مجازی خرد نامید.

مکانیسم توجه صریح

اگر مکانیسم توجه را به عنوان هوش مجازی خرد در نظر بگیریم، در این صورت، هوش مجازی‌ای که قبلاً به آن اشاره کردم، می‌تواند با ساخت یک مکانیسم توجه کلان (macro) محقق شود.

و این مکانیسم توجه کلان نیازی به اضافه شدن به ساختار داخلی مدل‌های زبان بزرگ یا شامل یادگیری شبکه عصبی ندارد.

این می‌تواند به سادگی یک عبارت صریح باشد که به زبان طبیعی نوشته شده است، مانند: «هنگام اجرای وظیفه A، به دانش B و دانش C مراجعه کنید.»

این امر دانش مورد نیاز برای وظیفه A را روشن می‌کند. این عبارت خود نوعی دانش است.

این را می‌توان مکانیسم توجه صریح نامید. این عبارت را می‌توان دانش توجهی در نظر گرفت که به طور صریح دانشی را که باید هنگام انجام وظیفه A بر آن تمرکز شود، بیان می‌کند.

علاوه بر این، این دانش توجهی می‌تواند توسط هوش مصنوعی مولد تولید یا به‌روزرسانی شود.

اگر وظیفه‌ای به دلیل کمبود دانش با شکست مواجه شود، می‌توان دانش توجهی را به‌روزرسانی کرد تا بر اساس این تأمل، دانش اضافی را به عنوان مرجعی برای آن وظیفه دربرگیرد.

نتیجه‌گیری

مکانیسم توجه به طور چشمگیری قابلیت‌های هوش مصنوعی مولد را ارتقا داده است.

این صرفاً مکانیزمی نبود که تصادفاً خوب عمل کرد؛ بلکه، همانطور که در اینجا مشاهده کردیم، خود مکانیسم محدود کردن پویای اطلاعاتی که در هر موقعیت باید به آن ارجاع داده شود، به نظر می‌رسد جوهر هوش پیشرفته باشد.

و مانند هوش مجازی و دانش توجهی صریح، مکانیسم توجه نیز کلید تقویت بازگشتی هوش در لایه‌های مختلف است.