https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakV
لقد طوّرتُ نظامًا يستخدم الذكاء الاصطناعي التوليدي لإنشاء فيديوهات عروض تقديمية تلقائيًا من مقالات المدونات ورفعها إلى يوتيوب.
ببعض الإبداع، لا يستطيع الذكاء الاصطناعي التوليدي ابتكار قصة العرض التقديمي فحسب، بل يمكنه أيضًا إنشاء مواد العرض التقديمي.
علاوة على ذلك، من خلال مطالبة الذكاء الاصطناعي التوليدي بإنشاء نص للعرض التقديمي، ثم مطالبة ذكاء اصطناعي توليدي لتحويل النص إلى كلام بقراءة هذا النص بصوت عالٍ، يمكن أيضًا إنشاء بيانات صوتية.
يؤدي دمج مواد العرض التقديمي والبيانات الصوتية بعد ذلك إلى إنتاج فيديو.
من خلال أتمتة هذه السلسلة من المهام، أصبحتُ قادرًا على توليد فيديوهات العروض التقديمية تلقائيًا بنقرة واحدة.
الآلية
الجزء الأكثر أهمية في العملية هو توليد مواد العرض التقديمي.
يتفوق الذكاء الاصطناعي التوليدي في إنشاء الصور، لكن هذا عادة ما يقتصر على الصور الفوتوغرافية أو الرسومات. أما إنشاء مستندات تركز على النصوص والأشكال، مثل مواد العروض التقديمية، فهو يمثل تحديًا لأجهزة الذكاء الاصطناعي التي تولد الصور.
لذلك، أقوم بتوليد المواد التي تركز على النصوص والأشكال بتنسيق قائم على النص، مشابه للغة البرمجة.
يمكن استخدام عدة تنسيقات لإنشاء مثل هذه المواد.
في البداية، جربت Marp، وهو تنسيق مخصص لإنشاء العروض التقديمية، لكن قدراته كانت محدودة. لذلك، قررت استخدام تنسيق SVG الأكثر عمومية، وهو مخصص لرسومات المتجهات.
باستخدام تنسيق قائم على النص مثل SVG، يمكن لذكاء اصطناعي توليدي قياسي يعتمد على الدردشة إنشاء المواد إذا طُلب منه طلب مثل: "الرجاء إنشاء مواد عرض تقديمي بتنسيق SVG تقدم محتوى مقالة المدونة هذه."
مشكلة تجاوز النص
المشكلة هنا هي أن النص يتجاوز في كثير من الأحيان الإطار الخارجي للمستند أو إطارات الأشكال داخل المستند.
سيلحظ الإنسان على الفور تجاوز النص عند عرض المستند المكتمل. ومع ذلك، فإن اكتشاف تجاوز النص في مرحلة نص SVG، بدلاً من الفحص البصري للمستند النهائي، أمر صعب.
وبالتالي، غالبًا ما ينتج الذكاء الاصطناعي التوليدي القائم على الدردشة مستندات بها تجاوز متكرر للنص.
بالطبع، يُنشئ الذكاء الاصطناعي معظم المحتوى بشكل جيد، ويمكنني ببساطة تصحيح تجاوز النص يدويًا. ومع ذلك، فإن هذا سيتطلب خطوة يدوية في كل مرة.
لذلك، أصبح من الضروري دمج تدابير لمنع تجاوز النص عند توليد مستندات SVG، وتطوير آلية للكشف التلقائي عما إذا كان هناك أي تجاوز للنص موجود في SVG المُنشأ.
لمنع تجاوز النص، اعتمدتُ نهجًا يتمثل في تزويد الذكاء الاصطناعي التوليدي بقواعد أساسية وإجراءات تشغيل وملاحظات تحذيرية عند توجيهه لإنشاء مواد العرض التقديمي.
كقواعد، وجهته بعدم استخدام الأشكال المعقدة وتثبيت حجم الخط للنص.
علاوة على ذلك، وجهته باتباع إجراء عد عدد الأحرف في جملة داخل المستند، وضرب ذلك بحجم الخط لتقدير العرض والارتفاع، ثم التأكد مسبقًا من أن النص لا يتجاوز الإطار أو الأشكال.
خلال هذه العملية، وجهت الذكاء الاصطناعي لتسجيل العملية المفحوصة والنتائج كتعليقات فحص مسبق داخل ملف SVG.
أدت إضافة هذه التعليمات إلى بعض التحسن، لكن الدقة الأولية لم تكن مرضية. لذلك، قمت بتوليد عدة اختلافات بشكل متكرر، وأضفت نقاط الأخطاء الشائعة كملاحظات تحذيرية للتعليمات، وشددت على القواعد والتعليمات بشكل متكرر داخل نص الأمر إذا لم يتم اتباعها.
من خلال التكرار على تحسينات الأوامر هذه عبر التجربة والخطأ، يمكن قمع تجاوز النص إلى حد معين.
ومع ذلك، حتى مع كل هذه الجهود، فإن الكمال لا يمكن تحقيقه، لذلك قررت تنفيذ فحص في مرحلة لاحقة.
بالنسبة لهذا الفحص بعد التوليد، حاولت استخدام ذكاء اصطناعي توليدي قادر على فحص الصور بصريًا، لكنه لم يتمكن من اكتشاف تجاوز النص بفعالية، لذلك تخلّيت عن هذا النهج.
بعد ذلك، حاولت طريقة أخرى: إدخال نص SVG مرة أخرى إلى ذكاء اصطناعي توليدي قائم على الدردشة للتحقق.
كانت هذه الطريقة أفضل في اكتشاف تجاوز النص من الذكاء الاصطناعي للفحص البصري، لكن دقة اكتشافها لم تكن عالية جدًا. هنا مرة أخرى، من خلال التحسين التكراري للتعليمات لاكتشاف التجاوز، تمكنت من تحقيق مستوى معين من الدقة، لكن ليس مستوى مثاليًا.
لذلك، قررت إنشاء برنامج لاكتشاف تجاوز النص بشكل أكثر صرامة. يتحقق هذا البرنامج مما إذا كان النص يتجاوز إطار المستند أو الأشكال الداخلية عن طريق حساب العرض والارتفاع من طول الجمل وحجم الخط في مواد العرض التقديمي، وفقًا للتعليمات الموجهة إلى الذكاء الاصطناعي التوليدي.
كان إنشاء هذا البرنامج شاقًا، لكنه أصبح في النهاية قادرًا على الاكتشاف الدقيق.
بالإضافة إلى تجاوز النص، كانت هناك أيضًا حالات حاول فيها الذكاء الاصطناعي إنشاء رسوم بيانية معقدة وأنتج مخرجات مشوهة. لمثل هذه الجوانب، احتفظت بنهج جعل الذكاء الاصطناعي التوليدي القائم على الدردشة يقوم بفحص انتهاك القواعد.
يحدد هذا الفحص ما إذا كان الذكاء الاصطناعي قد أنشأ أشكالًا أكثر تعقيدًا مما هو محدد في القواعد، ويصنفها على أنها غير مقبولة.
باستخدام هذا البرنامج للتحقق من التجاوز والذكاء الاصطناعي للتحقق من انتهاك القواعد، يمكن الآن اكتشاف المشكلات إلى حد كبير.
المعالجة اللاحقة
إذا تم اكتشاف رفض أثناء هذه الفحوصات، يتم تجاهل المواد التي تم إنشاؤها بتنسيق SVG وإعادة توليدها. وهذا لأن الإشارة إلى المناطق الإشكالية وتصحيحها غالبًا ما يؤدي إلى مشاكل أخرى، مما يستغرق وقتًا أطول في النهاية.
بمجرد الانتهاء من مادة عرض تقديمي خالية من تجاوز النص، تكون الخطوة التالية هي إدخال هذه المادة ومقالة المدونة الأصلية إلى الذكاء الاصطناعي التوليدي لإنشاء نص السرد. لم تكن هناك حاجة إلى براعة خاصة هنا.
بعد ذلك، يتم تحويل نص السرد إلى بيانات صوتية باستخدام ذكاء اصطناعي توليدي لتحويل النص إلى كلام. مرة أخرى، لم تكن هناك حاجة لتقنيات خاصة لهذا الغرض.
أخيرًا، يتم تحويل مادة العرض التقديمي بتنسيق SVG إلى صور PNG، ثم باستخدام أداة تسمى ffmpeg، يتم تحويلها إلى فيديو mp4 مع صوت. وبهذا تكتمل العملية.
يمكن أتمتة سلسلة العمليات التي تلي إنشاء شرائح بتنسيق SVG بسهولة عن طريق كتابة برامج أثناء استشارة الذكاء الاصطناعي التوليدي.
الخاتمة
بعد أن نجحت في بناء وتحسين نظام توليد فيديوهات العروض التقديمية الآلي هذا بنفسي، بدأت في نشر الفيديوهات على يوتيوب الأسبوع الماضي.
ومع ذلك، بعد فترة وجيزة من اكتمال هذا النظام، اكتسبت أداة NotebookLM من جوجل، وهي أداة ذكاء اصطناعي، ميزة مماثلة لتوليد الفيديوهات تلقائيًا لشرح المستندات النصية.
لذلك، من المتوقع أن تقوم الشركات التي تقدم خدمات الذكاء الاصطناعي في المستقبل بإصدار خدمات مماثلة، مما يلغي حاجة الأفراد لبناء مثل هذه الأنظمة من الصفر.
وعلى الرغم من ذلك، فإن تطوير برنامج عملي يستفيد من الذكاء الاصطناعي التوليدي بهذه الطريقة الجادة كان إنجازًا مهمًا، مما سمح لي بفهم المبادئ الأساسية لاستخدام الذكاء الاصطناعي التوليدي بفعالية.