सामग्रीवर जा
हा लेख AI वापरून जपानीमधून अनुवादित केला गेला आहे
जपानीमध्ये वाचा
हा लेख सार्वजनिक डोमेन (CC0) मध्ये आहे. त्याचा मुक्तपणे वापर करा. CC0 1.0 Universal

ब्लॉग पोस्ट्समधून आपोआप सादरीकरण व्हिडिओ निर्मिती

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV

मी एक प्रणाली विकसित केली आहे जी जनरेटिव्ह एआय (generative AI) चा वापर करून ब्लॉग लेखांमधून स्वयंचलितपणे सादरीकरण व्हिडिओ तयार करते आणि ते YouTube वर अपलोड करते.

काही कल्पकता वापरून, जनरेटिव्ह एआय सादरीकरणाची कथा केवळ तयार करू शकत नाही तर सादरीकरण सामग्री देखील बनवू शकते.

याव्यतिरिक्त, जनरेटिव्ह एआयला सादरीकरणासाठी एक स्क्रिप्ट (script) तयार करण्यास सांगून आणि नंतर टेक्स्ट-टू-स्पीच (text-to-speech) जनरेटिव्ह एआयला ती स्क्रिप्ट मोठ्याने वाचायला सांगून, ऑडिओ डेटा देखील तयार केला जाऊ शकतो.

सादरीकरण सामग्री आणि ऑडिओ डेटा एकत्र केल्याने व्हिडिओ तयार होतो.

कार्यांच्या या मालिकेचे स्वयंचलितीकरण करून, मी एका क्लिकवर सादरीकरण व्हिडिओ आपोआप तयार करणे शक्य केले आहे.

यंत्रणा

या प्रक्रियेतील सर्वात महत्त्वाचा भाग म्हणजे सादरीकरण सामग्रीची निर्मिती.

जनरेटिव्ह एआय (generative AI) प्रतिमा तयार करण्यात उत्कृष्ट आहे, परंतु हे सामान्यतः फोटो किंवा चित्रांपुरते मर्यादित असते. मजकूर आणि आकृत्यांवर केंद्रित दस्तऐवज, जसे की सादरीकरण सामग्री, प्रतिमा-जनरेटिंग एआयसाठी (image-generating AIs) तयार करणे आव्हानात्मक आहे.

त्यामुळे, मी मजकूर आणि आकृती-केंद्रित सामग्री प्रोग्रामिंग भाषेसारख्या मजकूर-आधारित स्वरूपात (text-based format) तयार करतो.

अशी सामग्री तयार करण्यासाठी अनेक स्वरूप वापरले जाऊ शकतात.

सुरुवातीला, मी मार्प (Marp) वापरण्याचा प्रयत्न केला, जे सादरीकरण निर्मितीसाठी विशेषतः एक स्वरूप आहे, परंतु त्याच्या क्षमता मर्यादित होत्या. म्हणून, मी अधिक सामान्य एसव्हीजी (SVG) स्वरूप वापरण्याचा निर्णय घेतला, जे वेक्टर ग्राफिक्ससाठी आहे.

एसव्हीजी (SVG) सारख्या मजकूर-आधारित स्वरूपासह, एका मानक चॅट-आधारित जनरेटिव्ह एआयला "कृपया या ब्लॉग लेखाची सामग्री सादर करणारी सादरीकरण सामग्री एसव्हीजी (SVG) स्वरूपात तयार करा" अशी विनंती केल्यास ते सामग्री तयार करू शकते.

मजकूर ओव्हरफ्लो समस्या

येथे समस्या अशी आहे की, मजकूर अनेकदा दस्तऐवजाच्या बाहेरील फ्रेमच्या किंवा दस्तऐवजातील आकृत्यांच्या फ्रेमच्या बाहेर जातो.

पूर्ण झालेले दस्तऐवज पाहताना मानवाला मजकूर ओव्हरफ्लो लगेच लक्षात येतो. तथापि, पूर्ण झालेल्या दस्तऐवजाच्या प्रत्यक्ष तपासणीऐवजी, एसव्हीजी (SVG) मजकूर स्टेजमध्ये मजकूर ओव्हरफ्लो शोधणे कठीण आहे.

परिणामी, चॅट-आधारित जनरेटिव्ह एआय (chat-based generative AI) अनेकदा मजकूर ओव्हरफ्लो असलेले दस्तऐवज तयार करते.

अर्थात, एआय (AI) बहुतेक सामग्री चांगली तयार करते आणि मी मजकूर ओव्हरफ्लो (text overflow) मॅन्युअली (manually) दुरुस्त करू शकतो. तथापि, यामुळे प्रत्येक वेळी मॅन्युअल (manual) हस्तक्षेपाची (step) आवश्यकता निर्माण होईल.

म्हणून, एसव्हीजी (SVG) दस्तऐवज तयार करताना मजकूर ओव्हरफ्लो (text overflow) टाळण्यासाठी उपाययोजना करणे आणि तयार केलेल्या एसव्हीजीमध्ये (SVG) कोणताही मजकूर ओव्हरफ्लो आहे की नाही हे आपोआप शोधण्यासाठी एक यंत्रणा विकसित करणे आवश्यक झाले.

मजकूर ओव्हरफ्लो टाळण्यासाठी, मी जनरेटिव्ह एआयला (generative AI) सादरीकरण सामग्री तयार करण्याचे निर्देश देताना मूलभूत नियम, कार्यपद्धती आणि सावधगिरीच्या नोंदी प्रदान करण्याचा दृष्टिकोन (approach) स्वीकारला.

नियमांनुसार, मी तिला जटिल आकृत्या (complex figures) वापरू नये आणि मजकूराचा फॉन्ट आकार (font size) निश्चित करावा असे निर्देश दिले.

याव्यतिरिक्त, मी तिला दस्तऐवजातील वाक्यांमधील वर्णांची संख्या मोजून, त्याला फॉन्ट आकाराने गुणाकार करून रुंदी आणि उंचीचा अंदाज घेऊन, आणि त्यानंतर मजकूर फ्रेमच्या किंवा आकृत्यांच्या बाहेर जात नाही याची पूर्व-पुष्टी करण्याच्या प्रक्रियेचे पालन करण्यास सांगितले.

या प्रक्रियेदरम्यान, मी एआयला (AI) तपासलेली प्रक्रिया आणि परिणाम एसव्हीजी (SVG) फाइलमध्ये प्री-चेक टिप्पण्या (pre-check comments) म्हणून रेकॉर्ड (record) करण्यास सांगितले.

या सूचना जोडल्याने काही प्रमाणात सुधारणा झाली, परंतु सुरुवातीची अचूकता समाधानकारक नव्हती. त्यामुळे, मी वारंवार अनेक भिन्नता तयार केल्या, सूचनांमध्ये सामान्य त्रुटीचे मुद्दे सावधगिरीच्या नोंदी म्हणून जोडले, आणि नियम व सूचनांचे पालन न झाल्यास प्रॉम्प्ट मजकूरात (prompt text) वारंवार जोर दिला.

या प्रॉम्प्ट (prompt) सुधारणांवर चाचणी आणि त्रुटीद्वारे पुनरावृत्ती केल्याने, मजकूर ओव्हरफ्लो (text overflow) काही प्रमाणात कमी करता येतो.

तथापि, या सर्व प्रयत्नांनंतरही, परिपूर्णता मिळवता येत नाही, म्हणून मी नंतरच्या टप्प्यात तपासणी लागू करण्याचा निर्णय घेतला.

या पोस्ट-जनरेशन तपासणीसाठी, मी प्रतिमांची दृश्यात्मक तपासणी करण्यास सक्षम असलेल्या जनरेटिव्ह एआयचा (generative AI) वापर करण्याचा प्रयत्न केला, परंतु ते मजकूर ओव्हरफ्लो प्रभावीपणे शोधू शकले नाही, म्हणून मी तो दृष्टिकोन सोडून दिला.

पुढे, मी दुसरी पद्धत वापरून पाहिली: तपासणीसाठी एसव्हीजी (SVG) मजकूर पुन्हा चॅट-आधारित जनरेटिव्ह एआयमध्ये (chat-based generative AI) इनपुट करणे.

ही पद्धत दृश्यात्मक तपासणी एआयपेक्षा (visual inspection AI) मजकूर ओव्हरफ्लो (text overflow) शोधण्यात चांगली होती, परंतु तिची शोध अचूकता अजूनही खूप जास्त नव्हती. येथे पुन्हा, ओव्हरफ्लो शोधण्यासाठी सूचनांमध्ये पुनरावृत्तीने सुधारणा करून, मी विशिष्ट पातळीची अचूकता प्राप्त करू शकलो, परंतु परिपूर्ण पातळीची नाही.

म्हणून, मजकूर ओव्हरफ्लो अधिक कठोरपणे शोधण्यासाठी एक प्रोग्राम (program) तयार करण्याचा मी निर्णय घेतला. हा प्रोग्राम, जनरेटिव्ह एआयला (generative AI) दिलेल्या निर्देशानुसार, सादरीकरण सामग्रीतील वाक्यांच्या लांबीवरून आणि फॉन्ट (font) आकारावरून रुंदी आणि उंचीची गणना करून, मजकूर दस्तऐवज फ्रेमच्या किंवा अंतर्गत आकृत्यांच्या बाहेर जात नाही हे तपासतो.

हा प्रोग्राम (program) तयार करणे कष्टदायक होते, परंतु शेवटी ते अचूकपणे शोधण्यास सक्षम झाले.

मजकूर ओव्हरफ्लो व्यतिरिक्त, असे काही प्रसंग देखील होते जिथे एआयने (AI) जटिल आकृत्या (complex charts) तयार करण्याचा प्रयत्न केला आणि विकृत आउटपुट (distorted outputs) दिले. अशा पैलूंसाठी, मी चॅट-आधारित जनरेटिव्ह एआयला (chat-based generative AI) नियम उल्लंघन तपासणी (rule violation check) करण्यास सांगण्याचा दृष्टिकोन कायम ठेवला.

ही तपासणी एआयने (AI) नियमांमध्ये (rules) परिभाषित केलेल्यापेक्षा अधिक जटिल आकृत्या (figures) तयार केल्या आहेत की नाही हे ठरवते आणि त्यांना अस्वीकार्य म्हणून चिन्हांकित करते.

ओव्हरफ्लो तपासणीसाठी (overflow checking) हा प्रोग्राम (program) आणि नियम उल्लंघनासाठी जनरेटिव्ह एआयच्या (generative AI) तपासणी यंत्रणेमुळे, आता समस्या मोठ्या प्रमाणात शोधता येऊ शकतात.

पुढील प्रक्रिया

या तपासण्यांमध्ये काही त्रुटी आढळल्यास, तयार केलेली एसव्हीजी-स्वरूपातील (SVG-format) सामग्री टाकून दिली जाते आणि पुन्हा तयार केली जाते. याचे कारण असे की, समस्याग्रस्त भाग दर्शवून ते दुरुस्त केल्यास अनेकदा इतर समस्या निर्माण होतात, ज्यामुळे शेवटी अधिक वेळ लागतो.

मजकूर ओव्हरफ्लो नसलेली सादरीकरण सामग्री (presentation material) एकदा पूर्ण झाल्यावर, पुढील पायरी म्हणजे ही सामग्री आणि मूळ ब्लॉग लेख जनरेटिव्ह एआयला (generative AI) कथन स्क्रिप्ट (narration script) तयार करण्यासाठी देणे. येथे कोणतीही विशेष कल्पकता आवश्यक नव्हती.

त्यानंतर, टेक्स्ट-टू-स्पीच (text-to-speech) जनरेटिव्ह एआयचा (generative AI) वापर करून कथन स्क्रिप्टचे (narration script) ऑडिओ डेटामध्ये (audio data) रूपांतर केले जाते. यासाठीही कोणत्याही विशेष तंत्रांची आवश्यकता नव्हती.

शेवटी, एसव्हीजी-स्वरूपातील (SVG-format) सादरीकरण सामग्रीचे पीएनजी (PNG) प्रतिमांमध्ये रूपांतर केले जाते आणि त्यानंतर, एफएफएम्पेग (ffmpeg) नावाचे साधन वापरून, ऑडिओसह एमपी४ (mp4) व्हिडिओमध्ये रूपांतरित केले जाते. यामुळे प्रक्रिया पूर्ण होते.

एसव्हीजी-स्वरूपातील (SVG-format) स्लाइड्स (slides) तयार झाल्यानंतरच्या प्रक्रियांची मालिका जनरेटिव्ह एआयचा (generative AI) सल्ला घेऊन प्रोग्राम (program) लिहून सहजपणे स्वयंचलित (automated) केली जाऊ शकते.

निष्कर्ष

हे स्वयंचलित सादरीकरण व्हिडिओ निर्मिती प्रणाली स्वतः यशस्वीरित्या तयार करून आणि परिष्कृत केल्यानंतर, मी गेल्या आठवड्यापासून YouTube वर व्हिडिओ प्रकाशित करण्यास सुरुवात केली.

तथापि, ही प्रणाली पूर्ण झाल्यानंतर लगेचच, Google च्या NotebookLM, एक एआय साधन, मध्ये मजकूर दस्तऐवज स्पष्ट करण्यासाठी आपोआप व्हिडिओ तयार करण्याची अशीच सुविधा जोडली गेली.

त्यामुळे, भविष्यात, एआय सेवा प्रदान करणाऱ्या कंपन्या अशाच प्रकारच्या सेवा बाजारात आणतील, ज्यामुळे व्यक्तींना सुरुवातीपासून अशा प्रणाली तयार करण्याची गरज राहणार नाही.

तरीही, जनरेटिव्ह एआयचा (generative AI) अशा गंभीर पद्धतीने उपयोग करून एक व्यावहारिक प्रोग्राम (program) विकसित करणे हे एक महत्त्वपूर्ण यश होते, ज्यामुळे मला जनरेटिव्ह एआयचा (generative AI) प्रभावीपणे वापर करण्याच्या मुख्य तत्त्वांची (key principles) समज मिळाली.