هوش مصنوعی مولد کنونی، یک فناوری هوش مصنوعی است که به لطف اختراع ترانسفورمرها، که یک پیشرفت بزرگ بود، شکوفا شده است.
مکانیسم توجه چیزی است که ترانسفورمر را در یک عبارت واحد مشخص میکند. این موضوع به اختصار در عنوان مقالهای که ترانسفورمر را معرفی میکند بیان شده است: "Attention is All You Need."
این ریشه در این واقعیت دارد که محققان هوش مصنوعی در آن زمان تلاشها و آزمایشهای مختلفی را انجام میدادند تا هوش مصنوعی را قادر سازند زبان طبیعی را به مهارت انسانها مدیریت کند، و روشهای موفق مختلفی را نامگذاری کرده و مقالاتی را در مورد آنها منتشر میکردند.
بسیاری از محققان بر این باور بودند که با ترکیب این مکانیسمهای متعدد و کارآمد به روشهای گوناگون، هوش مصنوعی که میتواند زبان طبیعی را مانند انسانها مدیریت کند، به تدریج ظهور خواهد کرد. بنابراین، آنها در تلاش برای یافتن مکانیسمهای جدیدی بودند که بتوانند در ترکیب با سایر مکانیسمها عمل کنند، و کشف ترکیبات بهینه این مکانیسمها را دنبال میکردند.
با این حال، ترانسفورمر این دانش متعارف را واژگون کرد. این پیام که نیازی به ترکیب مکانیسمهای مختلف نیست و تنها مکانیسم توجه لازم است، در عنوان مقاله بیان شده است.
البته، خود ترانسفورمر مکانیسمهای مختلفی را در خود جای داده است، اما شکی نیست که در میان آنها، مکانیسم توجه به طور خاص پیشگامانه و متمایز بود.
مروری بر مکانیسم توجه
مکانیسم توجه سیستمی است که در فرآیند پردازش کلمه به کلمه زبان طبیعی، میتواند یاد بگیرد که در هنگام پردازش یک کلمه معین، به کدام یک از کلمات متعدد قبلی در یک جمله باید "توجه کند".
این امر به آن اجازه میدهد تا به طور دقیق بفهمد کلماتی مانند "این"، "آن" یا "مورد ذکر شده" (که به کلمات موجود در جملات قبلی اشاره دارند)، یا عباراتی مانند "جمله آغازین"، "دومین مثال ذکر شده"، یا "پاراگراف قبلی" (که موقعیتها را در متن نشان میدهند)، به چه چیزی اشاره دارند.
علاوه بر این، میتواند کلمات را حتی زمانی که اصلاحکنندهها در یک جمله از هم دور هستند، به درستی تفسیر کند، و حتی زمانی که یک متن طولانی میشود، میتواند بدون از دست دادن زمینه کلمه فعلی در میان جملات دیگر، آن را تفسیر کند.
این کارایی "توجه" است.
برعکس، این بدان معناست که هنگام تفسیر کلمهای که در حال حاضر پردازش میشود، کلمات غیرضروری پوشانده شده و از تفسیر حذف میشوند.
با حفظ تنها کلمات ضروری برای تفسیر یک کلمه معین و حذف موارد نامربوط، مجموعه کلماتی که باید تفسیر شوند، صرف نظر از طول متن، به تعداد کمی محدود میماند و بدین ترتیب از رقیق شدن چگالی تفسیر جلوگیری میشود.
هوش مجازی
اکنون، کمی تغییر موضوع میدهم، من در مورد مفهوم هوش مجازی فکر کردهام.
در حال حاضر، هنگام استفاده از هوش مصنوعی مولد برای کسبوکار، اگر تمام اطلاعات یک شرکت را یکپارچه کرده و به عنوان دانش در اختیار هوش مصنوعی مولد قرار دهید، حجم بالای دانش میتواند در واقع مدیریت مناسب آن را برای هوش مصنوعی دشوار کند.
به همین دلیل، بهتر است دانش را بر اساس وظایف تقسیم کنید، برای هر وظیفه چتهای هوش مصنوعی آماده کنید یا ابزارهای هوش مصنوعی تخصصی برای عملیات خاص ایجاد کنید.
این بدان معناست که برای وظایف پیچیده، ترکیب این چتها و ابزارهای هوش مصنوعی مبتنی بر دانش تقسیمبندی شده ضروری میشود.
این یک محدودیت فعلی هنگام استفاده از هوش مصنوعی مولد است، اما حتی با هوش مصنوعی مولد آینده نیز، برای وظایف خاص، تمرکز تنها بر دانش مورد نیاز برای آن وظیفه باید دقت بالاتری را به همراه داشته باشد.
در عوض، من معتقدم که هوش مصنوعی مولد آینده قادر خواهد بود به طور داخلی بین مجموعه دانشهای لازم بسته به موقعیت جابجا شود، حتی بدون اینکه انسانها مجبور به تقسیمبندی دانش باشند.
این قابلیت هوش مجازی است. این مانند یک ماشین مجازی است که میتواند چندین سیستم عامل مختلف را روی یک رایانه واحد اجرا کند. این بدان معناست که در یک هوش، چندین هوش مجازی با تخصصهای مختلف میتوانند عمل کنند.
حتی هوش مصنوعی مولد کنونی نیز میتواند بحثهای بین چندین نفر را شبیهسازی کند یا داستانهایی با چندین شخصیت ایجاد کند. بنابراین، هوش مجازی یک توانایی خاص نیست، بلکه گسترشی از هوش مصنوعی مولد کنونی است.
هوش مجازی میکرو
مکانیسم هوش مجازی، که دانش لازم را بر اساس وظیفه محدود میکند، چیزی شبیه به مکانیسم توجه را انجام میدهد.
یعنی، از این جهت که بسته به وظیفه در حال پردازش، تنها بر دانش مرتبط تمرکز میکند، شبیه مکانیسم توجه است.
برعکس، میتوان گفت که مکانیسم توجه، مکانیسمی است که چیزی شبیه به هوش مجازی را محقق میسازد. با این حال، هوش مجازی که من در نظر دارم، مکانیسمی است که دانش مرتبط را از مجموعه دانش انتخاب میکند، در حالی که مکانیسم توجه بر روی مجموعهای از کلمات عمل میکند.
به همین دلیل، مکانیسم توجه را میتوان هوش مجازی میکرو نامید.
مکانیسم توجه صریح
اگر مکانیسم توجه را به عنوان هوش مجازی میکرو در نظر بگیریم، در این صورت، هوش مجازی که قبلاً به آن اشاره کردم، میتواند با ساخت یک مکانیسم توجه کلان (ماکرو) تحقق یابد.
و این مکانیسم توجه کلان نیازی به اضافه شدن به ساختار داخلی مدلهای زبان بزرگ یا آموزش شبکه عصبی ندارد.
این میتواند به سادگی یک جمله صریح نوشته شده در زبان طبیعی باشد، مانند "هنگام انجام وظیفه A، به دانش B و دانش C مراجعه کنید."
این امر دانش مورد نیاز برای وظیفه A را روشن میکند. خود این جمله نوعی دانش است.
این را میتوان مکانیسم توجه صریح نامید. این جمله را میتوان به عنوان دانش توجه توصیف کرد، که به صراحت دانشی را که باید هنگام انجام وظیفه A بر آن تمرکز شود، بیان میکند.
علاوه بر این، این دانش توجه میتواند توسط هوش مصنوعی مولد تولید یا بهروزرسانی شود.
اگر یک وظیفه به دلیل کمبود دانش با شکست مواجه شود، به عنوان یک درس آموخته شده، دانش توجه میتواند بهروزرسانی شود تا دانش اضافی که باید برای آن وظیفه مرجع قرار گیرد، شامل شود.
نتیجهگیری
مکانیسم توجه به طور چشمگیری قابلیتهای هوش مصنوعی مولد را بهبود بخشیده است.
این تنها مکانیسمی نبود که تصادفی خوب کار کرد؛ همانطور که در اینجا دیدیم، خود مکانیسم محدود کردن پویا اطلاعات برای ارجاع در هر موقعیت، به نظر میرسد جوهر هوش پیشرفته است.
و مانند هوش مجازی و دانش توجه صریح، مکانیسم توجه نیز کلید پیشرفت بازگشتی هوش در لایههای مختلف است.