پرش به محتوا
این مقاله با استفاده از هوش مصنوعی از ژاپنی ترجمه شده است
به ژاپنی بخوانید
این مقاله در مالکیت عمومی (CC0) است. آزادانه از آن استفاده کنید. CC0 1.0 Universal

تولید خودکار ویدیوی ارائه از پست‌های وبلاگ

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV

من سیستمی توسعه دادم که با استفاده از هوش مصنوعی مولد، ویدیوهای ارائه را به طور خودکار از مقالات وبلاگ ایجاد کرده و آن‌ها را در یوتیوب آپلود می‌کند.

با کمی خلاقیت، هوش مصنوعی مولد نه تنها می‌تواند خط داستانی ارائه را طراحی کند، بلکه مواد ارائه را نیز ایجاد کند.

علاوه بر این، با استفاده از هوش مصنوعی مولد برای ایجاد یک متن برای ارائه و سپس استفاده از یک هوش مصنوعی مولد تبدیل متن به گفتار برای خواندن آن متن با صدای بلند، داده‌های صوتی نیز می‌توانند تولید شوند.

ترکیب مواد ارائه و داده‌های صوتی سپس یک ویدیو تولید می‌کند.

با خودکارسازی این مجموعه وظایف، امکان تولید خودکار ویدیوهای ارائه با یک کلیک را فراهم کرده‌ام.

سازوکار

حیاتی‌ترین بخش این فرآیند، تولید مواد ارائه است.

هوش مصنوعی مولد در تولید تصاویر عالی عمل می‌کند، اما این قابلیت معمولاً به عکس‌ها یا نقاشی‌ها محدود می‌شود. ایجاد اسناد متمرکز بر متن و اشکال، مانند مواد ارائه، برای هوش مصنوعی‌های تولید تصویر چالش‌برانگیز است.

بنابراین، من مواد متمرکز بر متن و شکل را در قالبی مبتنی بر متن تولید می‌کنم، که مشابه یک زبان برنامه‌نویسی است.

فرمت‌های مختلفی برای ایجاد چنین موادی قابل استفاده هستند.

در ابتدا، من Marp را امتحان کردم، که فرمتی مخصوص ایجاد ارائه است، اما قابلیت‌های آن محدود بود. بنابراین، تصمیم گرفتم از فرمت کلی‌تر SVG استفاده کنم که برای گرافیک برداری است.

با یک فرمت مبتنی بر متن مانند SVG، یک هوش مصنوعی مولد مبتنی بر چت استاندارد می‌تواند مواد را ایجاد کند، اگر با درخواستی مانند «لطفاً مواد ارائه را با فرمت SVG که محتوای این مقاله وبلاگ را معرفی می‌کند، ایجاد کنید» به آن دستور داده شود.

مشکل سرریز متن

مشکلی که در اینجا وجود دارد این است که متن اغلب از کادر بیرونی سند یا کادرهای اشکال داخل سند فراتر می‌رود.

انسان بلافاصله پس از مشاهده سند تکمیل‌شده، متوجه سرریز متن می‌شود. با این حال، تشخیص سرریز متن در مرحله متن SVG، به جای بازرسی بصری سند نهایی، دشوار است.

در نتیجه، هوش مصنوعی مولد مبتنی بر چت اغلب اسنادی با سرریز متن مکرر تولید می‌کند.

البته، هوش مصنوعی بیشتر محتوا را به خوبی تولید می‌کند، و من می‌توانستم به سادگی سرریز متن را به صورت دستی اصلاح کنم. با این حال، این امر هر بار یک مرحله دستی را وارد می‌کند.

بنابراین، لازم شد تدابیری برای جلوگیری از سرریز متن هنگام تولید اسناد SVG اتخاذ شود و مکانیزمی برای تشخیص خودکار وجود هرگونه سرریز متن در SVG تولید شده توسعه یابد.

برای جلوگیری از سرریز متن، رویکردی را اتخاذ کردم که شامل ارائه قوانین اساسی، رویه‌های عملیاتی و نکات احتیاطی به هوش مصنوعی مولد هنگام دستور دادن به آن برای ایجاد مواد ارائه بود.

به عنوان قوانین، به آن دستور دادم که از اشکال پیچیده استفاده نکند و اندازه فونت متن را ثابت نگه دارد.

علاوه بر این، به آن دستور دادم که رویه‌ای را دنبال کند که شامل شمارش تعداد کاراکترها در یک جمله در داخل سند، ضرب آن در اندازه فونت برای تخمین عرض و ارتفاع، و سپس پیش‌تأیید عدم سرریز متن از کادر یا اشکال بود.

در طول این فرآیند، به هوش مصنوعی دستور دادم که فرآیند و نتایج بررسی شده را به عنوان توضیح پیش‌بررسی در فایل SVG ثبت کند.

افزودن این دستورالعمل‌ها بهبودهایی را به همراه داشت، اما دقت اولیه رضایت‌بخش نبود. بنابراین، من چندین نوع را بارها و بارها تولید کردم، نقاط خطای رایج را به عنوان نکات احتیاطی به دستورالعمل‌ها اضافه کردم و قوانین و دستورالعمل‌ها را به طور مکرر در متن اعلان تکرار کردم، اگر رعایت نمی‌شدند.

با تکرار این بهبودهای اعلان از طریق آزمون و خطا، سرریز متن تا حدودی قابل کنترل است.

با این حال، حتی با تمام این تلاش‌ها، دستیابی به کمال غیرممکن است، بنابراین تصمیم گرفتم یک بررسی را در مرحله بعدی پیاده‌سازی کنم.

برای این بررسی پس از تولید، سعی کردم از یک هوش مصنوعی مولد که قادر به بازرسی بصری تصاویر بود، استفاده کنم، اما نتوانست سرریز متن را به طور موثر تشخیص دهد، بنابراین آن رویکرد را کنار گذاشتم.

در مرحله بعد، روش دیگری را امتحان کردم: وارد کردن متن SVG به یک هوش مصنوعی مولد مبتنی بر چت برای بررسی.

این روش در تشخیص سرریز متن بهتر از هوش مصنوعی بازرسی بصری عمل کرد، اما دقت تشخیص آن هنوز خیلی بالا نبود. در اینجا نیز، با بهبود تکراری دستورالعمل‌ها برای تشخیص سرریز، توانستم به سطح خاصی از دقت دست یابم، اما نه به یک سطح کامل.

بنابراین، تصمیم گرفتم برنامه‌ای برای تشخیص دقیق‌تر سرریز متن ایجاد کنم. این برنامه بررسی می‌کند که آیا متن از کادر سند یا اشکال داخلی فراتر می‌رود یا خیر، با محاسبه عرض و ارتفاع از طول جملات و اندازه فونت در مواد ارائه، همانطور که به هوش مصنوعی مولد دستور داده شده بود.

ایجاد این برنامه کار دشواری بود، اما در نهایت توانایی تشخیص دقیق را پیدا کرد.

علاوه بر سرریز متن، مواردی نیز وجود داشت که هوش مصنوعی تلاش می‌کرد نمودارهای پیچیده ایجاد کند و خروجی‌های تحریف شده تولید می‌کرد. برای این جنبه‌ها، رویکردی را حفظ کردم که هوش مصنوعی مولد مبتنی بر چت بررسی نقض قانون را انجام دهد.

این بررسی تعیین می‌کند که آیا هوش مصنوعی اشکالی پیچیده‌تر از آنچه در قوانین تعریف شده است ایجاد کرده است یا خیر، و آنها را به عنوان غیرقابل قبول علامت‌گذاری می‌کند.

با این برنامه برای بررسی سرریز و هوش مصنوعی مولد برای بررسی نقض قانون، اکنون می‌توان مشکلات را تا حد زیادی تشخیص داد.

پردازش‌های بعدی

در صورتی که در طول این بررسی‌ها، رد شدن محتوا تشخیص داده شود، ماده تولید شده با فرمت SVG دور ریخته شده و مجدداً تولید می‌شود. دلیل این امر آن است که اشاره و اصلاح بخش‌های مشکل‌ساز اغلب منجر به مسائل دیگری می‌شود و در نهایت زمان بیشتری را در بر می‌گیرد.

هنگامی که یک ماده ارائه بدون سرریز متن تکمیل شد، گام بعدی وارد کردن این ماده و مقاله اصلی وبلاگ به هوش مصنوعی مولد است تا متن روایت را ایجاد کند. در این مرحله نیازی به خلاقیت خاصی نبود.

سپس، متن روایت با استفاده از یک هوش مصنوعی مولد تبدیل متن به گفتار، به داده صوتی تبدیل می‌شود. در اینجا نیز نیازی به تکنیک‌های خاصی نبود.

در نهایت، ماده ارائه با فرمت SVG به تصاویر PNG تبدیل می‌شود و سپس، با استفاده از ابزاری به نام ffmpeg، به یک ویدیوی mp4 همراه با صدا تبدیل می‌گردد. این کار فرآیند را تکمیل می‌کند.

مجموعه فرآیندهایی که پس از ایجاد اسلایدهای با فرمت SVG انجام می‌شود، به راحتی می‌تواند با نوشتن برنامه‌ها و مشورت با هوش مصنوعی مولد، خودکار شود.

نتیجه‌گیری

پس از اینکه خودم با موفقیت این سیستم خودکار تولید ویدیوی ارائه را ساختم و بهبود بخشیدم، از هفته گذشته شروع به انتشار ویدیوها در یوتیوب کردم.

با این حال، اندکی پس از تکمیل این سیستم، NotebookLM گوگل، که یک ابزار هوش مصنوعی است، نیز قابلیتی مشابه برای تولید خودکار ویدیوهایی جهت توضیح اسناد متنی به دست آورد.

بنابراین، پیش‌بینی می‌شود که در آینده، شرکت‌های ارائه‌دهنده خدمات هوش مصنوعی، سرویس‌های مشابهی را عرضه خواهند کرد که نیاز افراد به ساخت چنین سیستم‌هایی از پایه را از بین می‌برد.

با این وجود، توسعه یک برنامه کاربردی با بهره‌گیری از هوش مصنوعی مولد به این شیوه جدی، دستاورد مهمی بوده و به من امکان داده تا اصول کلیدی استفاده مؤثر از هوش مصنوعی مولد را درک کنم.