هوش مصنوعی مولد کنونی، فناوری هوش مصنوعی است که با اختراع ترنسفورمر به عنوان یک پیشرفت بزرگ، شکوفا شد.
مکانیسم توجه را میتوان ویژگی اصلی ترنسفورمر توصیف کرد. این نکته به طور خلاصه در عنوان مقاله معرفی ترنسفورمر بیان شده است: «Attention Is All You Need» (تنها چیزی که نیاز دارید، توجه است).
پیشینه این امر این است که محققان هوش مصنوعی در آن زمان تلاشهای گوناگونی انجام میدادند و درگیر آزمون و خطا بودند تا هوش مصنوعی را قادر سازند زبان طبیعی را با مهارت انسانها پردازش کند، روشهای موفق را نامگذاری کرده و مقالاتی در مورد آنها منتشر میکردند.
بسیاری از محققان باور داشتند که با ترکیب این مکانیسمهای مؤثر متعدد به روشهای گوناگون، میتوانند به تدریج هوش مصنوعیای بسازند که قادر به پردازش زبان طبیعی مانند انسانها باشد. آنها بر کشف مکانیسمهای جدیدی تمرکز داشتند که بتوانند در ترکیب با دیگران عمل کنند و به دنبال یافتن ترکیبات بهینه این مکانیسمها بودند.
با این حال، ترنسفورمر این دیدگاه سنتی را دگرگون کرد. این پیام که نیازی به ترکیب مکانیسمهای مختلف نیست و تنها مکانیسم توجه کافی است، به وضوح در عنوان مقاله مشخص بود.
در حالی که خود ترنسفورمر قطعاً مکانیسمهای مختلفی را در خود جای داده است، اما شکی نیست که مکانیسم توجه در میان آنها به ویژه پیشگامانه و متمایز بود.
نمای کلی مکانیسم توجه
مکانیسم توجه سیستمی است که به هوش مصنوعی اجازه میدهد تا هنگام پردازش یک کلمه خاص در زبان طبیعی، بیاموزد که از میان کلمات بسیاری که در جملات قبلی وجود دارند، به کدام یک باید توجه کند.
این امر هوش مصنوعی را قادر میسازد تا به دقت درک کند که یک کلمه به چه چیزی اشاره دارد، برای مثال، هنگام مواجهه با کلمات اشارهای مانند "این"، "آن" یا "مذکور" (که به کلمهای در جمله قبلی اشاره میکند)، یا مراجع مکانی مانند "جمله آغازین"، "دومین مثال ذکر شده" یا "پاراگراف قبلی".
علاوه بر این، میتواند صفات را حتی اگر در یک جمله از هم دور باشند، به درستی تفسیر کند و حتی در متون طولانی، میتواند کلمات را بدون از دست دادن بافتار (context) مربوط به کلمه فعلی تفسیر کند و از گم شدن آن در میان جملات دیگر جلوگیری نماید.
این همان فایده "توجه" است.
برعکس، این به معنای آن است که هنگام تفسیر کلمه در حال پردازش، کلمات غیرضروری پوشانده شده و از تفسیر حذف میشوند.
با نگه داشتن تنها کلمات ضروری برای تفسیر یک کلمه معین و حذف کلمات نامربوط، مجموعه کلمات برای تفسیر به تعداد کمی محدود میشود، مهم نیست متن چقدر طولانی باشد، بنابراین از رقیق شدن چگالی تفسیری جلوگیری میشود.
هوش مجازی
حال، بحث را کمی تغییر دهیم، من در حال تأمل درباره مفهوم هوش مجازی بودهام.
در حال حاضر، هنگام استفاده از هوش مصنوعی مولد برای کسبوکار، اگر تمام اطلاعات یک شرکت به صورت یکجا جمعآوری شده و به عنوان یک پایگاه دانش واحد به هوش مصنوعی داده شود، حجم بالای دانش میتواند طاقتفرسا شود و منجر به پدیدهای گردد که هوش مصنوعی نمیتواند آن را به درستی پردازش کند.
به همین دلیل، مؤثرتر است که دانش بر اساس وظایف جدا شود، یعنی برای هر وظیفه چتهای هوش مصنوعی جداگانه آماده شود یا ابزارهای هوش مصنوعی متخصص برای عملیات خاص ایجاد گردد.
در نتیجه، هنگام انجام وظایف پیچیده، لازم است که این چتهای هوش مصنوعی یا ابزارهای هوش مصنوعی، که هر یک دارای دانش مجزای خود هستند، با یکدیگر ترکیب شوند.
در حالی که این یک محدودیت فعلی هوش مصنوعی مولد است، اساساً حتی با هوش مصنوعی مولد آینده، تمرکز صرفاً بر دانشی که برای یک وظیفه خاص لازم است، باید منجر به دقت بالاتری شود.
به جای آن، من معتقدم که هوش مصنوعی مولد آینده قادر خواهد بود به صورت داخلی دانش لازم را بر اساس موقعیت تشخیص داده و استفاده کند، حتی بدون اینکه انسانها مجبور به تقسیمبندی آن دانش باشند.
این قابلیت همان هوش مجازی است. این مانند یک ماشین مجازی است که میتواند چندین سیستم عامل متفاوت را روی یک کامپیوتر واحد اجرا کند. به این معناست که در یک هوش واحد، چندین هوش مجازی با تخصصهای متفاوت میتوانند عمل کنند.
حتی هوش مصنوعی مولد کنونی نیز میتواند گفتگوهای بین چندین نفر را شبیهسازی کند یا داستانهایی با حضور چندین شخصیت خلق کند. بنابراین، هوش مجازی یک قابلیت خاص نیست، بلکه امتدادی از هوش مصنوعی مولد فعلی است.
هوش مجازی خرد
مکانیسم هوش مجازی که دانش لازم را بر اساس وظیفه محدود میکند، چیزی شبیه به مکانیسم توجه را انجام میدهد.
به عبارت دیگر، این مکانیسم مشابه مکانیسم توجه است زیرا بر اساس وظیفهای که در حال حاضر اجرا میشود، تنها بر دانش مربوطه تمرکز کرده و آن را پردازش میکند.
برعکس، میتوان گفت که مکانیسم توجه، مکانیزمی است که چیزی شبیه به هوش مجازی را تحقق میبخشد. با این حال، در حالی که هوش مجازیای که من در نظر دارم، دانش مربوطه را از مجموعهای از دانشها انتخاب میکند، مکانیسم توجه در واحد مجموعهای از کلمات عمل میکند.
به همین دلیل، میتوان مکانیسم توجه را هوش مجازی خرد نامید.
مکانیسم توجه صریح
اگر مکانیسم توجه را به عنوان هوش مجازی خرد در نظر بگیریم، در این صورت، هوش مجازیای که قبلاً به آن اشاره کردم، میتواند با ساخت یک مکانیسم توجه کلان (macro) محقق شود.
و این مکانیسم توجه کلان نیازی به اضافه شدن به ساختار داخلی مدلهای زبان بزرگ یا شامل یادگیری شبکه عصبی ندارد.
این میتواند به سادگی یک عبارت صریح باشد که به زبان طبیعی نوشته شده است، مانند: «هنگام اجرای وظیفه A، به دانش B و دانش C مراجعه کنید.»
این امر دانش مورد نیاز برای وظیفه A را روشن میکند. این عبارت خود نوعی دانش است.
این را میتوان مکانیسم توجه صریح نامید. این عبارت را میتوان دانش توجهی در نظر گرفت که به طور صریح دانشی را که باید هنگام انجام وظیفه A بر آن تمرکز شود، بیان میکند.
علاوه بر این، این دانش توجهی میتواند توسط هوش مصنوعی مولد تولید یا بهروزرسانی شود.
اگر وظیفهای به دلیل کمبود دانش با شکست مواجه شود، میتوان دانش توجهی را بهروزرسانی کرد تا بر اساس این تأمل، دانش اضافی را به عنوان مرجعی برای آن وظیفه دربرگیرد.
نتیجهگیری
مکانیسم توجه به طور چشمگیری قابلیتهای هوش مصنوعی مولد را ارتقا داده است.
این صرفاً مکانیزمی نبود که تصادفاً خوب عمل کرد؛ بلکه، همانطور که در اینجا مشاهده کردیم، خود مکانیسم محدود کردن پویای اطلاعاتی که در هر موقعیت باید به آن ارجاع داده شود، به نظر میرسد جوهر هوش پیشرفته باشد.
و مانند هوش مجازی و دانش توجهی صریح، مکانیسم توجه نیز کلید تقویت بازگشتی هوش در لایههای مختلف است.