پرش به محتوا
این مقاله با استفاده از هوش مصنوعی از ژاپنی ترجمه شده است
به ژاپنی بخوانید
این مقاله در مالکیت عمومی (CC0) است. آزادانه از آن استفاده کنید. CC0 1.0 Universal

مکانیسم توجه به مثابه هوش مجازی میکرو

هوش مصنوعی مولد کنونی، یک فناوری هوش مصنوعی است که به لطف اختراع ترانسفورمرها، که یک پیشرفت بزرگ بود، شکوفا شده است.

مکانیسم توجه چیزی است که ترانسفورمر را در یک عبارت واحد مشخص می‌کند. این موضوع به اختصار در عنوان مقاله‌ای که ترانسفورمر را معرفی می‌کند بیان شده است: "Attention is All You Need."

این ریشه در این واقعیت دارد که محققان هوش مصنوعی در آن زمان تلاش‌ها و آزمایش‌های مختلفی را انجام می‌دادند تا هوش مصنوعی را قادر سازند زبان طبیعی را به مهارت انسان‌ها مدیریت کند، و روش‌های موفق مختلفی را نامگذاری کرده و مقالاتی را در مورد آنها منتشر می‌کردند.

بسیاری از محققان بر این باور بودند که با ترکیب این مکانیسم‌های متعدد و کارآمد به روش‌های گوناگون، هوش مصنوعی که می‌تواند زبان طبیعی را مانند انسان‌ها مدیریت کند، به تدریج ظهور خواهد کرد. بنابراین، آنها در تلاش برای یافتن مکانیسم‌های جدیدی بودند که بتوانند در ترکیب با سایر مکانیسم‌ها عمل کنند، و کشف ترکیبات بهینه این مکانیسم‌ها را دنبال می‌کردند.

با این حال، ترانسفورمر این دانش متعارف را واژگون کرد. این پیام که نیازی به ترکیب مکانیسم‌های مختلف نیست و تنها مکانیسم توجه لازم است، در عنوان مقاله بیان شده است.

البته، خود ترانسفورمر مکانیسم‌های مختلفی را در خود جای داده است، اما شکی نیست که در میان آنها، مکانیسم توجه به طور خاص پیشگامانه و متمایز بود.

مروری بر مکانیسم توجه

مکانیسم توجه سیستمی است که در فرآیند پردازش کلمه به کلمه زبان طبیعی، می‌تواند یاد بگیرد که در هنگام پردازش یک کلمه معین، به کدام یک از کلمات متعدد قبلی در یک جمله باید "توجه کند".

این امر به آن اجازه می‌دهد تا به طور دقیق بفهمد کلماتی مانند "این"، "آن" یا "مورد ذکر شده" (که به کلمات موجود در جملات قبلی اشاره دارند)، یا عباراتی مانند "جمله آغازین"، "دومین مثال ذکر شده"، یا "پاراگراف قبلی" (که موقعیت‌ها را در متن نشان می‌دهند)، به چه چیزی اشاره دارند.

علاوه بر این، می‌تواند کلمات را حتی زمانی که اصلاح‌کننده‌ها در یک جمله از هم دور هستند، به درستی تفسیر کند، و حتی زمانی که یک متن طولانی می‌شود، می‌تواند بدون از دست دادن زمینه کلمه فعلی در میان جملات دیگر، آن را تفسیر کند.

این کارایی "توجه" است.

برعکس، این بدان معناست که هنگام تفسیر کلمه‌ای که در حال حاضر پردازش می‌شود، کلمات غیرضروری پوشانده شده و از تفسیر حذف می‌شوند.

با حفظ تنها کلمات ضروری برای تفسیر یک کلمه معین و حذف موارد نامربوط، مجموعه کلماتی که باید تفسیر شوند، صرف نظر از طول متن، به تعداد کمی محدود می‌ماند و بدین ترتیب از رقیق شدن چگالی تفسیر جلوگیری می‌شود.

هوش مجازی

اکنون، کمی تغییر موضوع می‌دهم، من در مورد مفهوم هوش مجازی فکر کرده‌ام.

در حال حاضر، هنگام استفاده از هوش مصنوعی مولد برای کسب‌وکار، اگر تمام اطلاعات یک شرکت را یکپارچه کرده و به عنوان دانش در اختیار هوش مصنوعی مولد قرار دهید، حجم بالای دانش می‌تواند در واقع مدیریت مناسب آن را برای هوش مصنوعی دشوار کند.

به همین دلیل، بهتر است دانش را بر اساس وظایف تقسیم کنید، برای هر وظیفه چت‌های هوش مصنوعی آماده کنید یا ابزارهای هوش مصنوعی تخصصی برای عملیات خاص ایجاد کنید.

این بدان معناست که برای وظایف پیچیده، ترکیب این چت‌ها و ابزارهای هوش مصنوعی مبتنی بر دانش تقسیم‌بندی شده ضروری می‌شود.

این یک محدودیت فعلی هنگام استفاده از هوش مصنوعی مولد است، اما حتی با هوش مصنوعی مولد آینده نیز، برای وظایف خاص، تمرکز تنها بر دانش مورد نیاز برای آن وظیفه باید دقت بالاتری را به همراه داشته باشد.

در عوض، من معتقدم که هوش مصنوعی مولد آینده قادر خواهد بود به طور داخلی بین مجموعه دانش‌های لازم بسته به موقعیت جابجا شود، حتی بدون اینکه انسان‌ها مجبور به تقسیم‌بندی دانش باشند.

این قابلیت هوش مجازی است. این مانند یک ماشین مجازی است که می‌تواند چندین سیستم عامل مختلف را روی یک رایانه واحد اجرا کند. این بدان معناست که در یک هوش، چندین هوش مجازی با تخصص‌های مختلف می‌توانند عمل کنند.

حتی هوش مصنوعی مولد کنونی نیز می‌تواند بحث‌های بین چندین نفر را شبیه‌سازی کند یا داستان‌هایی با چندین شخصیت ایجاد کند. بنابراین، هوش مجازی یک توانایی خاص نیست، بلکه گسترشی از هوش مصنوعی مولد کنونی است.

هوش مجازی میکرو

مکانیسم هوش مجازی، که دانش لازم را بر اساس وظیفه محدود می‌کند، چیزی شبیه به مکانیسم توجه را انجام می‌دهد.

یعنی، از این جهت که بسته به وظیفه در حال پردازش، تنها بر دانش مرتبط تمرکز می‌کند، شبیه مکانیسم توجه است.

برعکس، می‌توان گفت که مکانیسم توجه، مکانیسمی است که چیزی شبیه به هوش مجازی را محقق می‌سازد. با این حال، هوش مجازی که من در نظر دارم، مکانیسمی است که دانش مرتبط را از مجموعه دانش انتخاب می‌کند، در حالی که مکانیسم توجه بر روی مجموعه‌ای از کلمات عمل می‌کند.

به همین دلیل، مکانیسم توجه را می‌توان هوش مجازی میکرو نامید.

مکانیسم توجه صریح

اگر مکانیسم توجه را به عنوان هوش مجازی میکرو در نظر بگیریم، در این صورت، هوش مجازی که قبلاً به آن اشاره کردم، می‌تواند با ساخت یک مکانیسم توجه کلان (ماکرو) تحقق یابد.

و این مکانیسم توجه کلان نیازی به اضافه شدن به ساختار داخلی مدل‌های زبان بزرگ یا آموزش شبکه عصبی ندارد.

این می‌تواند به سادگی یک جمله صریح نوشته شده در زبان طبیعی باشد، مانند "هنگام انجام وظیفه A، به دانش B و دانش C مراجعه کنید."

این امر دانش مورد نیاز برای وظیفه A را روشن می‌کند. خود این جمله نوعی دانش است.

این را می‌توان مکانیسم توجه صریح نامید. این جمله را می‌توان به عنوان دانش توجه توصیف کرد، که به صراحت دانشی را که باید هنگام انجام وظیفه A بر آن تمرکز شود، بیان می‌کند.

علاوه بر این، این دانش توجه می‌تواند توسط هوش مصنوعی مولد تولید یا به‌روزرسانی شود.

اگر یک وظیفه به دلیل کمبود دانش با شکست مواجه شود، به عنوان یک درس آموخته شده، دانش توجه می‌تواند به‌روزرسانی شود تا دانش اضافی که باید برای آن وظیفه مرجع قرار گیرد، شامل شود.

نتیجه‌گیری

مکانیسم توجه به طور چشمگیری قابلیت‌های هوش مصنوعی مولد را بهبود بخشیده است.

این تنها مکانیسمی نبود که تصادفی خوب کار کرد؛ همانطور که در اینجا دیدیم، خود مکانیسم محدود کردن پویا اطلاعات برای ارجاع در هر موقعیت، به نظر می‌رسد جوهر هوش پیشرفته است.

و مانند هوش مجازی و دانش توجه صریح، مکانیسم توجه نیز کلید پیشرفت بازگشتی هوش در لایه‌های مختلف است.