https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV
من سیستمی توسعه دادم که با استفاده از هوش مصنوعی مولد، ویدیوهای ارائه را به طور خودکار از مقالات وبلاگ ایجاد کرده و آنها را در یوتیوب آپلود میکند.
با کمی خلاقیت، هوش مصنوعی مولد نه تنها میتواند خط داستانی ارائه را طراحی کند، بلکه مواد ارائه را نیز ایجاد کند.
علاوه بر این، با استفاده از هوش مصنوعی مولد برای ایجاد یک متن برای ارائه و سپس استفاده از یک هوش مصنوعی مولد تبدیل متن به گفتار برای خواندن آن متن با صدای بلند، دادههای صوتی نیز میتوانند تولید شوند.
ترکیب مواد ارائه و دادههای صوتی سپس یک ویدیو تولید میکند.
با خودکارسازی این مجموعه وظایف، امکان تولید خودکار ویدیوهای ارائه با یک کلیک را فراهم کردهام.
سازوکار
حیاتیترین بخش این فرآیند، تولید مواد ارائه است.
هوش مصنوعی مولد در تولید تصاویر عالی عمل میکند، اما این قابلیت معمولاً به عکسها یا نقاشیها محدود میشود. ایجاد اسناد متمرکز بر متن و اشکال، مانند مواد ارائه، برای هوش مصنوعیهای تولید تصویر چالشبرانگیز است.
بنابراین، من مواد متمرکز بر متن و شکل را در قالبی مبتنی بر متن تولید میکنم، که مشابه یک زبان برنامهنویسی است.
فرمتهای مختلفی برای ایجاد چنین موادی قابل استفاده هستند.
در ابتدا، من Marp را امتحان کردم، که فرمتی مخصوص ایجاد ارائه است، اما قابلیتهای آن محدود بود. بنابراین، تصمیم گرفتم از فرمت کلیتر SVG استفاده کنم که برای گرافیک برداری است.
با یک فرمت مبتنی بر متن مانند SVG، یک هوش مصنوعی مولد مبتنی بر چت استاندارد میتواند مواد را ایجاد کند، اگر با درخواستی مانند «لطفاً مواد ارائه را با فرمت SVG که محتوای این مقاله وبلاگ را معرفی میکند، ایجاد کنید» به آن دستور داده شود.
مشکل سرریز متن
مشکلی که در اینجا وجود دارد این است که متن اغلب از کادر بیرونی سند یا کادرهای اشکال داخل سند فراتر میرود.
انسان بلافاصله پس از مشاهده سند تکمیلشده، متوجه سرریز متن میشود. با این حال، تشخیص سرریز متن در مرحله متن SVG، به جای بازرسی بصری سند نهایی، دشوار است.
در نتیجه، هوش مصنوعی مولد مبتنی بر چت اغلب اسنادی با سرریز متن مکرر تولید میکند.
البته، هوش مصنوعی بیشتر محتوا را به خوبی تولید میکند، و من میتوانستم به سادگی سرریز متن را به صورت دستی اصلاح کنم. با این حال، این امر هر بار یک مرحله دستی را وارد میکند.
بنابراین، لازم شد تدابیری برای جلوگیری از سرریز متن هنگام تولید اسناد SVG اتخاذ شود و مکانیزمی برای تشخیص خودکار وجود هرگونه سرریز متن در SVG تولید شده توسعه یابد.
برای جلوگیری از سرریز متن، رویکردی را اتخاذ کردم که شامل ارائه قوانین اساسی، رویههای عملیاتی و نکات احتیاطی به هوش مصنوعی مولد هنگام دستور دادن به آن برای ایجاد مواد ارائه بود.
به عنوان قوانین، به آن دستور دادم که از اشکال پیچیده استفاده نکند و اندازه فونت متن را ثابت نگه دارد.
علاوه بر این، به آن دستور دادم که رویهای را دنبال کند که شامل شمارش تعداد کاراکترها در یک جمله در داخل سند، ضرب آن در اندازه فونت برای تخمین عرض و ارتفاع، و سپس پیشتأیید عدم سرریز متن از کادر یا اشکال بود.
در طول این فرآیند، به هوش مصنوعی دستور دادم که فرآیند و نتایج بررسی شده را به عنوان توضیح پیشبررسی در فایل SVG ثبت کند.
افزودن این دستورالعملها بهبودهایی را به همراه داشت، اما دقت اولیه رضایتبخش نبود. بنابراین، من چندین نوع را بارها و بارها تولید کردم، نقاط خطای رایج را به عنوان نکات احتیاطی به دستورالعملها اضافه کردم و قوانین و دستورالعملها را به طور مکرر در متن اعلان تکرار کردم، اگر رعایت نمیشدند.
با تکرار این بهبودهای اعلان از طریق آزمون و خطا، سرریز متن تا حدودی قابل کنترل است.
با این حال، حتی با تمام این تلاشها، دستیابی به کمال غیرممکن است، بنابراین تصمیم گرفتم یک بررسی را در مرحله بعدی پیادهسازی کنم.
برای این بررسی پس از تولید، سعی کردم از یک هوش مصنوعی مولد که قادر به بازرسی بصری تصاویر بود، استفاده کنم، اما نتوانست سرریز متن را به طور موثر تشخیص دهد، بنابراین آن رویکرد را کنار گذاشتم.
در مرحله بعد، روش دیگری را امتحان کردم: وارد کردن متن SVG به یک هوش مصنوعی مولد مبتنی بر چت برای بررسی.
این روش در تشخیص سرریز متن بهتر از هوش مصنوعی بازرسی بصری عمل کرد، اما دقت تشخیص آن هنوز خیلی بالا نبود. در اینجا نیز، با بهبود تکراری دستورالعملها برای تشخیص سرریز، توانستم به سطح خاصی از دقت دست یابم، اما نه به یک سطح کامل.
بنابراین، تصمیم گرفتم برنامهای برای تشخیص دقیقتر سرریز متن ایجاد کنم. این برنامه بررسی میکند که آیا متن از کادر سند یا اشکال داخلی فراتر میرود یا خیر، با محاسبه عرض و ارتفاع از طول جملات و اندازه فونت در مواد ارائه، همانطور که به هوش مصنوعی مولد دستور داده شده بود.
ایجاد این برنامه کار دشواری بود، اما در نهایت توانایی تشخیص دقیق را پیدا کرد.
علاوه بر سرریز متن، مواردی نیز وجود داشت که هوش مصنوعی تلاش میکرد نمودارهای پیچیده ایجاد کند و خروجیهای تحریف شده تولید میکرد. برای این جنبهها، رویکردی را حفظ کردم که هوش مصنوعی مولد مبتنی بر چت بررسی نقض قانون را انجام دهد.
این بررسی تعیین میکند که آیا هوش مصنوعی اشکالی پیچیدهتر از آنچه در قوانین تعریف شده است ایجاد کرده است یا خیر، و آنها را به عنوان غیرقابل قبول علامتگذاری میکند.
با این برنامه برای بررسی سرریز و هوش مصنوعی مولد برای بررسی نقض قانون، اکنون میتوان مشکلات را تا حد زیادی تشخیص داد.
پردازشهای بعدی
در صورتی که در طول این بررسیها، رد شدن محتوا تشخیص داده شود، ماده تولید شده با فرمت SVG دور ریخته شده و مجدداً تولید میشود. دلیل این امر آن است که اشاره و اصلاح بخشهای مشکلساز اغلب منجر به مسائل دیگری میشود و در نهایت زمان بیشتری را در بر میگیرد.
هنگامی که یک ماده ارائه بدون سرریز متن تکمیل شد، گام بعدی وارد کردن این ماده و مقاله اصلی وبلاگ به هوش مصنوعی مولد است تا متن روایت را ایجاد کند. در این مرحله نیازی به خلاقیت خاصی نبود.
سپس، متن روایت با استفاده از یک هوش مصنوعی مولد تبدیل متن به گفتار، به داده صوتی تبدیل میشود. در اینجا نیز نیازی به تکنیکهای خاصی نبود.
در نهایت، ماده ارائه با فرمت SVG به تصاویر PNG تبدیل میشود و سپس، با استفاده از ابزاری به نام ffmpeg، به یک ویدیوی mp4 همراه با صدا تبدیل میگردد. این کار فرآیند را تکمیل میکند.
مجموعه فرآیندهایی که پس از ایجاد اسلایدهای با فرمت SVG انجام میشود، به راحتی میتواند با نوشتن برنامهها و مشورت با هوش مصنوعی مولد، خودکار شود.
نتیجهگیری
پس از اینکه خودم با موفقیت این سیستم خودکار تولید ویدیوی ارائه را ساختم و بهبود بخشیدم، از هفته گذشته شروع به انتشار ویدیوها در یوتیوب کردم.
با این حال، اندکی پس از تکمیل این سیستم، NotebookLM گوگل، که یک ابزار هوش مصنوعی است، نیز قابلیتی مشابه برای تولید خودکار ویدیوهایی جهت توضیح اسناد متنی به دست آورد.
بنابراین، پیشبینی میشود که در آینده، شرکتهای ارائهدهنده خدمات هوش مصنوعی، سرویسهای مشابهی را عرضه خواهند کرد که نیاز افراد به ساخت چنین سیستمهایی از پایه را از بین میبرد.
با این وجود، توسعه یک برنامه کاربردی با بهرهگیری از هوش مصنوعی مولد به این شیوه جدی، دستاورد مهمی بوده و به من امکان داده تا اصول کلیدی استفاده مؤثر از هوش مصنوعی مولد را درک کنم.