सामग्री पर जाएं
यह लेख जापानी से एआई का उपयोग करके अनुवादित किया गया है
जापानी में पढ़ें
यह लेख सार्वजनिक डोमेन (CC0) में है। इसे स्वतंत्र रूप से उपयोग करने के लिए स्वतंत्र महसूस करें। CC0 1.0 Universal

ब्लॉग पोस्ट से स्वचालित प्रेजेंटेशन वीडियो जनरेशन

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakV

मैंने एक ऐसी प्रणाली विकसित की है जो जनरेटिव एआई का उपयोग करके ब्लॉग लेखों से स्वचालित रूप से प्रेजेंटेशन वीडियो बनाती है और उन्हें YouTube पर अपलोड करती है।

कुछ सरलता के साथ, जनरेटिव एआई न केवल प्रेजेंटेशन की कहानी तैयार कर सकता है बल्कि प्रेजेंटेशन सामग्री भी बना सकता है।

इसके अलावा, जनरेटिव एआई से प्रेजेंटेशन के लिए एक स्क्रिप्ट बनवाकर और फिर टेक्स्ट-टू-स्पीच जनरेटिव एआई से उस स्क्रिप्ट को जोर से पढ़वाकर, ऑडियो डेटा भी जनरेट किया जा सकता है।

प्रेजेंटेशन सामग्री और ऑडियो डेटा को मिलाकर फिर एक वीडियो तैयार होता है।

कार्यों की इस श्रृंखला को स्वचालित करके, मैंने एक क्लिक के साथ स्वचालित रूप से प्रेजेंटेशन वीडियो जनरेट करना संभव बना दिया है।

तंत्र

प्रक्रिया का सबसे महत्वपूर्ण हिस्सा प्रेजेंटेशन सामग्री का निर्माण है।

जनरेटिव एआई छवियों को बनाने में उत्कृष्ट है, लेकिन यह आमतौर पर तस्वीरों या चित्रों तक ही सीमित है। टेक्स्ट और आकृतियों पर केंद्रित दस्तावेज़ बनाना, जैसे प्रेजेंटेशन सामग्री, छवि-जनरेटिंग एआई के लिए चुनौतीपूर्ण है।

इसलिए, मैं टेक्स्ट और आकृतियों पर केंद्रित सामग्री को एक टेक्स्ट-आधारित प्रारूप में बनाता हूँ, जो एक प्रोग्रामिंग भाषा के समान है।

ऐसी सामग्री बनाने के लिए कई प्रारूपों का उपयोग किया जा सकता है।

शुरुआत में, मैंने मारप (Marp) का उपयोग करने की कोशिश की, जो विशेष रूप से प्रेजेंटेशन बनाने के लिए एक प्रारूप है, लेकिन इसकी क्षमताएं सीमित थीं। इसलिए, मैंने अधिक सामान्य एसवीजी (SVG) प्रारूप का उपयोग करने का फैसला किया, जो वेक्टर ग्राफिक्स के लिए है।

एसवीजी जैसे टेक्स्ट-आधारित प्रारूप के साथ, एक मानक चैट-आधारित जनरेटिव एआई सामग्री बना सकता है यदि उसे इस तरह के अनुरोध के साथ संकेत दिया जाए, "कृपया इस ब्लॉग लेख की सामग्री का परिचय देते हुए एसवीजी प्रारूप में प्रेजेंटेशन सामग्री बनाएं।"

टेक्स्ट ओवरफ्लो समस्या

यहां समस्या यह है कि टेक्स्ट अक्सर दस्तावेज़ के बाहरी फ्रेम या दस्तावेज़ के भीतर आकृतियों के फ्रेम से आगे निकल जाता है।

एक इंसान तैयार दस्तावेज़ को देखते ही टेक्स्ट ओवरफ्लो को तुरंत नोटिस कर लेगा। हालांकि, तैयार दस्तावेज़ के दृश्य निरीक्षण के बजाय, एसवीजी टेक्स्ट चरण में टेक्स्ट ओवरफ्लो का पता लगाना मुश्किल है।

परिणामस्वरूप, चैट-आधारित जनरेटिव एआई अक्सर टेक्स्ट ओवरफ्लो वाले दस्तावेज़ बनाता है।

निश्चित रूप से, एआई अधिकांश सामग्री को अच्छी तरह से जनरेट करता है, और मैं मैन्युअल रूप से टेक्स्ट ओवरफ्लो को ठीक कर सकता था। हालांकि, इससे हर बार एक मैन्युअल कदम उठाना पड़ता।

इसलिए, एसवीजी दस्तावेज़ जनरेट करते समय टेक्स्ट ओवरफ्लो को रोकने के लिए उपाय शामिल करना, और जनरेट किए गए एसवीजी में किसी भी टेक्स्ट ओवरफ्लो की स्वचालित रूप से पहचान करने के लिए एक तंत्र विकसित करना आवश्यक हो गया।

टेक्स्ट ओवरफ्लो को रोकने के लिए, मैंने जनरेटिव एआई को प्रेजेंटेशन सामग्री बनाने का निर्देश देते समय उसे बुनियादी नियम, संचालन प्रक्रियाएं और सावधानी संबंधी नोट्स प्रदान करने का तरीका अपनाया।

नियमों के तौर पर, मैंने उसे जटिल आकृतियों का उपयोग न करने और टेक्स्ट का फ़ॉन्ट आकार तय करने का निर्देश दिया।

इसके अलावा, मैंने उसे दस्तावेज़ के भीतर एक वाक्य में वर्णों की संख्या गिनने, चौड़ाई और ऊंचाई का अनुमान लगाने के लिए उसे फ़ॉन्ट आकार से गुणा करने, और फिर यह पूर्व-पुष्टि करने की प्रक्रिया का पालन करने का निर्देश दिया कि टेक्स्ट फ्रेम या आकृतियों से बाहर नहीं निकल रहा है।

इस प्रक्रिया के दौरान, मैंने एआई को जाँच की गई प्रक्रिया और परिणामों को एसवीजी फ़ाइल के भीतर प्री-चेक टिप्पणी के रूप में रिकॉर्ड करने का निर्देश दिया।

इन निर्देशों को जोड़ने से कुछ सुधार हुआ, लेकिन शुरुआती सटीकता संतोषजनक नहीं थी। इसलिए, मैंने बार-बार कई भिन्नताएं उत्पन्न कीं, सामान्य त्रुटि बिंदुओं को निर्देशों में सावधानी संबंधी नोट्स के रूप में जोड़ा, और यदि नियमों और निर्देशों का पालन नहीं किया जा रहा था तो उन्हें प्रॉम्प्ट टेक्स्ट में बार-बार जोर दिया।

परीक्षण और त्रुटि के माध्यम से इन प्रॉम्प्ट सुधारों को दोहराकर, टेक्स्ट ओवरफ्लो को कुछ हद तक दबाया जा सकता है।

हालांकि, इन सभी प्रयासों के बावजूद, पूर्णता प्राप्त नहीं की जा सकती, इसलिए मैंने बाद के चरण में एक जाँच लागू करने का फैसला किया।

इस पोस्ट-जनरेशन जाँच के लिए, मैंने छवियों का नेत्रहीन निरीक्षण करने में सक्षम एक जनरेटिव एआई का उपयोग करने की कोशिश की, लेकिन यह टेक्स्ट ओवरफ्लो का प्रभावी ढंग से पता नहीं लगा सका, इसलिए मैंने उस दृष्टिकोण को छोड़ दिया।

इसके बाद, मैंने एक और तरीका आजमाया: जाँच के लिए एसवीजी टेक्स्ट को वापस चैट-आधारित जनरेटिव एआई में इनपुट करना।

यह तरीका दृश्य निरीक्षण एआई की तुलना में टेक्स्ट ओवरफ्लो का पता लगाने में बेहतर था, लेकिन इसकी पता लगाने की सटीकता अभी भी बहुत अधिक नहीं थी। यहां भी, ओवरफ्लो का पता लगाने के निर्देशों में पुनरावृत्तीय सुधार करके, मैं एक निश्चित स्तर की सटीकता प्राप्त कर सका, लेकिन एक पूर्ण स्तर नहीं।

इसलिए, मैंने टेक्स्ट ओवरफ्लो का अधिक सख्ती से पता लगाने के लिए एक प्रोग्राम बनाने का फैसला किया। यह प्रोग्राम जनरेटिव एआई को दिए गए निर्देशों के अनुसार प्रेजेंटेशन सामग्री में वाक्यों की लंबाई और फ़ॉन्ट आकार से चौड़ाई और ऊंचाई की गणना करके दस्तावेज़ फ्रेम या आंतरिक आकृतियों से टेक्स्ट ओवरफ्लो होता है या नहीं, इसकी जाँच करता है।

इस प्रोग्राम को बनाना श्रमसाध्य था, लेकिन अंततः यह सटीक पहचान करने में सक्षम हो गया।

टेक्स्ट ओवरफ्लो के अलावा, ऐसे मामले भी थे जहां एआई ने जटिल चार्ट बनाने की कोशिश की और विकृत आउटपुट उत्पन्न किए। ऐसे पहलुओं के लिए, मैंने चैट-आधारित जनरेटिव एआई से नियम उल्लंघन जाँच करवाने का तरीका बरकरार रखा।

यह जाँच निर्धारित करती है कि क्या एआई ने नियमों में परिभाषित की तुलना में अधिक जटिल आकृतियाँ बनाई हैं, उन्हें अस्वीकार्य के रूप में चिह्नित करते हुए।

ओवरफ्लो जाँच के लिए इस प्रोग्राम और नियम उल्लंघन जाँच के लिए जनरेटिव एआई के साथ, अब समस्याओं का बड़े पैमाने पर पता लगाया जा सकता है।

अनुवर्ती प्रसंस्करण

यदि इन जाँचों के दौरान अस्वीकृति का पता चलता है, तो उत्पन्न एसवीजी-प्रारूप सामग्री को त्याग दिया जाता है और पुन: उत्पन्न किया जाता है। ऐसा इसलिए है क्योंकि समस्याग्रस्त क्षेत्रों को इंगित करने और ठीक करने से अक्सर अन्य समस्याएं उत्पन्न होती हैं, जिससे अंततः अधिक समय लगता है।

एक बार टेक्स्ट ओवरफ्लो से मुक्त प्रेजेंटेशन सामग्री पूरी हो जाने के बाद, अगला कदम इस सामग्री और मूल ब्लॉग लेख को जनरेटिव एआई में इनपुट करना है ताकि नरेशन स्क्रिप्ट बनाई जा सके। यहां किसी विशेष सरलता की आवश्यकता नहीं थी।

फिर, नरेशन स्क्रिप्ट को टेक्स्ट-टू-स्पीच जनरेटिव एआई का उपयोग करके ऑडियो डेटा में परिवर्तित किया जाता है। फिर से, इसके लिए किसी विशेष तकनीक की आवश्यकता नहीं थी।

अंत में, एसवीजी-प्रारूप प्रेजेंटेशन सामग्री को पीएनजी छवियों में परिवर्तित किया जाता है, और फिर, एफएफएमपीईजी नामक एक उपकरण का उपयोग करके, इसे ऑडियो के साथ एक mp4 वीडियो में परिवर्तित किया जाता है। यह प्रक्रिया पूरी करता है।

एसवीजी-प्रारूप स्लाइड के निर्माण के बाद की प्रक्रियाओं की श्रृंखला को जनरेटिव एआई के साथ परामर्श करते हुए प्रोग्राम लिखकर आसानी से स्वचालित किया जा सकता है।

निष्कर्ष

इस स्वचालित प्रेजेंटेशन वीडियो जनरेशन प्रणाली को सफलतापूर्वक बनाने और परिष्कृत करने के बाद, मैंने पिछले सप्ताह YouTube पर वीडियो प्रकाशित करना शुरू कर दिया।

हालांकि, इस प्रणाली के पूरा होने के तुरंत बाद, Google के नोटबुकएलएम (NotebookLM), एक एआई टूल ने भी टेक्स्ट दस्तावेज़ों को समझाने के लिए स्वचालित रूप से वीडियो बनाने की एक समान सुविधा प्राप्त कर ली।

इसलिए, यह अनुमान लगाया जाता है कि भविष्य में, एआई सेवाएं प्रदान करने वाली कंपनियां इसी तरह की सेवाएं जारी करेंगी, जिससे व्यक्तियों को इस तरह की प्रणालियों को खरोंच से बनाने की आवश्यकता नहीं होगी।

फिर भी, जनरेटिव एआई का इस तरह के गंभीर तरीके से लाभ उठाने वाले एक व्यावहारिक कार्यक्रम को विकसित करना एक महत्वपूर्ण उपलब्धि रही है, जिससे मुझे जनरेटिव एआई का प्रभावी ढंग से उपयोग करने के प्रमुख सिद्धांतों को समझने का मौका मिला।