https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvJmN8kH
আমি এমন একটি সিস্টেম তৈরি করেছি যা জেনারেটিভ এআই ব্যবহার করে ব্লগ নিবন্ধ থেকে স্বয়ংক্রিয়ভাবে প্রেজেন্টেশন ভিডিও তৈরি করে এবং ইউটিউবে আপলোড করে।
কিছু উদ্ভাবনী পদ্ধতির সাহায্যে, জেনারেটিভ এআই কেবল প্রেজেন্টেশনের গল্পই তৈরি করতে পারে না, বরং প্রেজেন্টেশনের উপকরণও তৈরি করতে পারে।
তাছাড়া, জেনারেটিভ এআইকে প্রেজেন্টেশনের জন্য একটি স্ক্রিপ্ট তৈরি করতে দিয়ে এবং তারপর একটি টেক্সট-টু-স্পিচ জেনারেটিভ এআইকে সেই স্ক্রিপ্টটি উচ্চস্বরে পড়তে দিলে অডিও ডেটাও তৈরি করা যায়।
প্রেজেন্টেশনের উপকরণ এবং অডিও ডেটা একত্রিত করে একটি ভিডিও তৈরি হয়।
এই কাজগুলির একটি ধারাবাহিকতাকে স্বয়ংক্রিয় করার মাধ্যমে, আমি একটি ক্লিকেই স্বয়ংক্রিয়ভাবে প্রেজেন্টেশন ভিডিও তৈরি করা সম্ভব করেছি।
প্রক্রিয়া
এই প্রক্রিয়ার সবচেয়ে গুরুত্বপূর্ণ অংশ হল প্রেজেন্টেশন উপকরণ তৈরি করা।
জেনারেটিভ এআই ছবি তৈরিতে খুবই দক্ষ, কিন্তু এটি সাধারণত ফটোগ্রাফ বা ড্রইংয়ের মধ্যেই সীমাবদ্ধ থাকে। প্রেজেন্টেশন উপকরণের মতো পাঠ্য এবং চিত্রের উপর কেন্দ্র করে নথি তৈরি করা ইমেজ-জেনারেটিং এআই-এর জন্য চ্যালেঞ্জিং।
অতএব, আমি পাঠ্য এবং চিত্র-কেন্দ্রিক উপকরণগুলি প্রোগ্রামিং ভাষার মতো একটি পাঠ্য-ভিত্তিক বিন্যাসে তৈরি করি।
এই ধরনের উপকরণ তৈরির জন্য বিভিন্ন বিন্যাস ব্যবহার করা যেতে পারে।
প্রাথমিকভাবে, আমি প্রেজেন্টেশন তৈরির জন্য Marp নামে একটি বিন্যাস চেষ্টা করেছিলাম, কিন্তু এর ক্ষমতা সীমিত ছিল। তাই, আমি আরও সাধারণ SVG বিন্যাস ব্যবহার করার সিদ্ধান্ত নিয়েছি, যা ভেক্টর গ্রাফিক্সের জন্য ব্যবহৃত হয়।
SVG-এর মতো পাঠ্য-ভিত্তিক বিন্যাস ব্যবহার করলে, একটি স্ট্যান্ডার্ড চ্যাট-ভিত্তিক জেনারেটিভ এআইকে "এই ব্লগ নিবন্ধের বিষয়বস্তু উপস্থাপন করে SVG বিন্যাসে প্রেজেন্টেশন উপকরণ তৈরি করুন" এমন একটি অনুরোধ জানিয়ে উপকরণ তৈরি করানো যায়।
টেক্সট ওভারফ্লো সমস্যা
এখানে সমস্যা হল যে, লেখা প্রায়শই ডকুমেন্টের বাইরের ফ্রেম বা ডকুমেন্টের ভেতরের চিত্রের ফ্রেমের বাইরে চলে যায়।
একজন মানুষ সম্পূর্ণ ডকুমেন্ট দেখার সময় অবিলম্বে টেক্সট ওভারফ্লো লক্ষ্য করবে। তবে, সমাপ্ত ডকুমেন্টের দৃশ্যমান পরিদর্শনের পরিবর্তে SVG টেক্সট পর্যায়ে টেক্সট ওভারফ্লো সনাক্ত করা কঠিন।
ফলস্বরূপ, চ্যাট-ভিত্তিক জেনারেটিভ এআই প্রায়শই ঘন ঘন টেক্সট ওভারফ্লো সহ ডকুমেন্ট তৈরি করে।
অবশ্য, এআই বেশিরভাগ বিষয়বস্তু ভালোভাবে তৈরি করে, এবং আমি সহজেই ম্যানুয়ালি টেক্সট ওভারফ্লো ঠিক করতে পারতাম। তবে, এতে প্রতিবার একটি ম্যানুয়াল ধাপ যুক্ত হত।
অতএব, SVG ডকুমেন্ট তৈরি করার সময় টেক্সট ওভারফ্লো রোধ করার জন্য ব্যবস্থা গ্রহণ করা এবং তৈরি SVG-তে কোনো টেক্সট ওভারফ্লো আছে কিনা তা স্বয়ংক্রিয়ভাবে সনাক্ত করার জন্য একটি প্রক্রিয়া তৈরি করা জরুরি হয়ে পড়েছিল।
টেক্সট ওভারফ্লো রোধ করার জন্য, আমি জেনারেটিভ এআইকে প্রেজেন্টেশন উপকরণ তৈরির নির্দেশ দেওয়ার সময় মৌলিক নিয়মাবলী, অপারেটিং পদ্ধতি এবং সতর্কতামূলক নোট সরবরাহ করার একটি পদ্ধতি গ্রহণ করেছি।
নিয়মাবলী হিসাবে, আমি নির্দেশ দিয়েছিলাম যে এটি জটিল চিত্র ব্যবহার করবে না এবং টেক্সটের ফন্ট সাইজ স্থির রাখবে।
এছাড়াও, আমি নির্দেশ দিয়েছিলাম যে এটি ডকুমেন্টের একটি বাক্যে অক্ষরের সংখ্যা গণনা করবে, ফন্ট সাইজ দিয়ে গুণ করে প্রস্থ এবং উচ্চতা অনুমান করবে এবং তারপর পূর্বে নিশ্চিত করবে যে টেক্সট ফ্রেম বা চিত্রের বাইরে যাচ্ছে না।
এই প্রক্রিয়ার সময়, আমি এআইকে নির্দেশ দিয়েছিলাম যে চেক করা প্রক্রিয়া এবং ফলাফলগুলি SVG ফাইলের মধ্যে প্রি-চেক মন্তব্য হিসাবে রেকর্ড করবে।
এই নির্দেশাবলী যুক্ত করা কিছু উন্নতি এনেছিল, তবে প্রাথমিক নির্ভুলতা সন্তোষজনক ছিল না। তাই, আমি বারবার বেশ কয়েকটি ভিন্নতা তৈরি করেছি, নির্দেশাবলীতে সাধারণ ত্রুটির পয়েন্টগুলি সতর্কতামূলক নোট হিসাবে যুক্ত করেছি এবং যদি নিয়মাবলী এবং নির্দেশাবলী অনুসরণ না করা হয় তবে প্রম্পট টেক্সটের মধ্যে বারবার সেগুলিকে জোর দিয়েছি।
এই প্রম্পট উন্নতিগুলি চেষ্টা ও ত্রুটির মাধ্যমে পুনরাবৃত্তি করার ফলে, টেক্সট ওভারফ্লো একটি নির্দিষ্ট পরিমাণে দমন করা যায়।
তবে, এই সমস্ত প্রচেষ্টা সত্ত্বেও, নিখুঁততা অর্জন করা অসম্ভব, তাই আমি পরবর্তী ধাপে একটি চেক প্রয়োগ করার সিদ্ধান্ত নিয়েছি।
এই পোস্ট-জেনারেটিং চেকের জন্য, আমি ছবি দৃশ্যত পরিদর্শন করতে সক্ষম একটি জেনারেটিভ এআই ব্যবহার করার চেষ্টা করেছিলাম, কিন্তু এটি কার্যকরভাবে টেক্সট ওভারফ্লো সনাক্ত করতে পারেনি, তাই আমি সেই পদ্ধতিটি পরিত্যাগ করেছি।
এরপর, আমি আরেকটি পদ্ধতি চেষ্টা করেছি: SVG টেক্সটটি একটি চ্যাট-ভিত্তিক জেনারেটিভ এআই-তে ইনপুট করে চেক করার জন্য।
এই পদ্ধতিটি ভিজ্যুয়াল ইনস্পেকশন এআই-এর চেয়ে টেক্সট ওভারফ্লো সনাক্ত করতে আরও ভালো ছিল, তবে এর সনাক্তকরণ নির্ভুলতা তখনও খুব বেশি ছিল না। এখানেও, ওভারফ্লো সনাক্তকরণের জন্য নির্দেশাবলী বারবার উন্নত করার মাধ্যমে, আমি একটি নির্দিষ্ট স্তরের নির্ভুলতা অর্জন করতে পেরেছিলাম, তবে নিখুঁত স্তরে নয়।
অতএব, আমি টেক্সট ওভারফ্লো আরও কঠোরভাবে সনাক্ত করার জন্য একটি প্রোগ্রাম তৈরি করার সিদ্ধান্ত নিয়েছি। এই প্রোগ্রামটি জেনারেটিভ এআইকে নির্দেশ দেওয়া অনুযায়ী, প্রেজেন্টেশন উপকরণে বাক্যগুলির দৈর্ঘ্য এবং ফন্ট সাইজ থেকে প্রস্থ এবং উচ্চতা গণনা করে, টেক্সট ডকুমেন্টের ফ্রেম বা অভ্যন্তরীণ চিত্রগুলির বাইরে যাচ্ছে কিনা তা পরীক্ষা করে।
এই প্রোগ্রামটি তৈরি করা শ্রমসাধ্য ছিল, তবে এটি শেষ পর্যন্ত সঠিক সনাক্তকরণে সক্ষম হয়েছে।
টেক্সট ওভারফ্লো ছাড়াও, এমন কিছু ক্ষেত্রেও ছিল যেখানে এআই জটিল চার্ট তৈরি করার চেষ্টা করেছিল এবং বিকৃত আউটপুট তৈরি করেছিল। এই ধরনের দিকগুলির জন্য, আমি চ্যাট-ভিত্তিক জেনারেটিভ এআইকে একটি নিয়ম লঙ্ঘন পরীক্ষা করার পদ্ধতি বজায় রেখেছি।
এই চেকটি নির্ধারণ করে যে এআই নিয়মে সংজ্ঞায়িত করার চেয়ে জটিল চিত্র তৈরি করেছে কিনা, এবং সেগুলিকে অগ্রহণযোগ্য হিসাবে চিহ্নিত করে।
ওভারফ্লো চেকিংয়ের জন্য এই প্রোগ্রাম এবং নিয়ম লঙ্ঘন চেকিংয়ের জন্য জেনারেটিভ এআই সহ, এখন সমস্যাগুলি মূলত সনাক্ত করা যেতে পারে।
পরবর্তী প্রক্রিয়া
যদি এই পরীক্ষাগুলিতে কোনো ত্রুটি ধরা পড়ে, তাহলে তৈরি করা SVG-ফরম্যাটের উপাদান বাতিল করে পুনরায় তৈরি করা হয়। এর কারণ হল, সমস্যাযুক্ত স্থানগুলি নির্দেশ করে সংশোধন করলেও প্রায়শই অন্যান্য সমস্যার সৃষ্টি হয়, যা শেষ পর্যন্ত আরও বেশি সময় নেয়।
একবার টেক্সট ওভারফ্লো-মুক্ত একটি প্রেজেন্টেশন উপাদান সম্পূর্ণ হয়ে গেলে, পরবর্তী ধাপ হল এই উপাদান এবং আসল ব্লগ নিবন্ধটি জেনারেটিভ এআই-কে দেওয়া, যাতে সেটি বর্ণনা স্ক্রিপ্ট তৈরি করতে পারে। এখানে কোনো বিশেষ উদ্ভাবনের প্রয়োজন ছিল না।
তারপর, বর্ণনা স্ক্রিপ্টটি টেক্সট-টু-স্পিচ জেনারেটিভ এআই ব্যবহার করে অডিও ডেটাতে রূপান্তরিত হয়। এক্ষেত্রেও কোনো বিশেষ কৌশলের প্রয়োজন ছিল না।
সবশেষে, SVG-ফরম্যাটের প্রেজেন্টেশন উপাদান PNG ছবিতে রূপান্তরিত হয় এবং তারপর, ffmpeg নামক একটি টুল ব্যবহার করে এটিকে অডিও সহ একটি mp4 ভিডিওতে রূপান্তরিত করা হয়। এতে সম্পূর্ণ প্রক্রিয়াটি শেষ হয়।
SVG-ফরম্যাটের স্লাইড তৈরির পরবর্তী প্রক্রিয়াগুলির ধারাবাহিকতাকে জেনারেটিভ এআই-এর সাথে পরামর্শ করে প্রোগ্রাম লিখে সহজেই স্বয়ংক্রিয় করা যেতে পারে।
উপসংহার
আমি নিজে সফলভাবে এই স্বয়ংক্রিয় প্রেজেন্টেশন ভিডিও তৈরির সিস্টেমটি তৈরি ও পরিমার্জন করে গত সপ্তাহে ইউটিউবে ভিডিও প্রকাশ করা শুরু করেছি।
তবে, এই সিস্টেমটি সম্পূর্ণ হওয়ার অল্প সময়ের মধ্যেই, গুগলের নোটবুকএলএম (NotebookLM) নামক একটি এআই টুলও টেক্সট ডকুমেন্ট ব্যাখ্যা করার জন্য স্বয়ংক্রিয়ভাবে ভিডিও তৈরির একই ধরনের ফিচার পেয়েছে।
অতএব, এটি প্রত্যাশিত যে ভবিষ্যতে এআই পরিষেবা প্রদানকারী সংস্থাগুলি একই ধরনের পরিষেবা প্রকাশ করবে, যার ফলে ব্যক্তিদের প্রথম থেকে এই ধরনের সিস্টেম তৈরি করার প্রয়োজন থাকবে না।
তা সত্ত্বেও, জেনারেটিভ এআই ব্যবহার করে এমন একটি বাস্তব প্রোগ্রাম তৈরি করা একটি উল্লেখযোগ্য অর্জন, যা আমাকে কার্যকরভাবে জেনারেটিভ এআই ব্যবহারের মূল নীতিগুলি উপলব্ধি করতে সাহায্য করেছে।