સામગ્રી પર જાઓ
આ લેખ AI નો ઉપયોગ કરીને જાપાનીઝમાંથી અનુવાદિત કરવામાં આવ્યો છે
જાપાનીઝમાં વાંચો
આ લેખ પબ્લિક ડોમેન (CC0) માં છે. તેને મુક્તપણે ઉપયોગ કરવા માટે નિઃસંકોચ રહો. CC0 1.0 Universal

બ્લોગ પોસ્ટ્સમાંથી પ્રેઝન્ટેશન વીડિયોનું સ્વચાલિત નિર્માણ

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV

મેં જનરેટિવ AI નો ઉપયોગ કરીને બ્લોગ લેખોમાંથી આપમેળે પ્રેઝન્ટેશન વીડિયો બનાવવા અને તેને YouTube પર અપલોડ કરવાની એક સિસ્ટમ વિકસાવી છે.

થોડી ચાતુર્ય સાથે, જનરેટિવ AI માત્ર પ્રેઝન્ટેશનની વાર્તા જ નહીં, પણ પ્રેઝન્ટેશન સામગ્રી પણ બનાવી શકે છે.

વધુમાં, જનરેટિવ AI દ્વારા પ્રેઝન્ટેશન માટે સ્ક્રિપ્ટ બનાવવામાં આવે અને પછી ટેક્સ્ટ-ટુ-સ્પીચ જનરેટિવ AI તે સ્ક્રિપ્ટને મોટેથી વાંચે, તો ઑડિઓ ડેટા પણ જનરેટ કરી શકાય છે.

પ્રેઝન્ટેશન સામગ્રી અને ઑડિઓ ડેટાને જોડીને પછી એક વીડિયો તૈયાર થાય છે.

આ કાર્યોની શ્રેણીને સ્વચાલિત કરીને, મેં એક જ ક્લિકથી પ્રેઝન્ટેશન વીડિયોને આપમેળે જનરેટ કરવાનું શક્ય બનાવ્યું છે.

પદ્ધતિ

આ પ્રક્રિયાનો સૌથી નિર્ણાયક ભાગ પ્રેઝન્ટેશન સામગ્રીનું નિર્માણ છે.

જનરેટિવ AI છબીઓ બનાવવામાં ઉત્કૃષ્ટ છે, પરંતુ આ સામાન્ય રીતે ફોટોગ્રાફ્સ અથવા રેખાંકનો પૂરતું મર્યાદિત હોય છે. પ્રેઝન્ટેશન સામગ્રી જેવી ટેક્સ્ટ અને આકૃતિઓ પર કેન્દ્રિત દસ્તાવેજો બનાવવાનું, છબી-નિર્માણ કરનાર AI માટે પડકારજનક છે.

તેથી, હું પ્રોગ્રામિંગ ભાષા જેવી જ ટેક્સ્ટ-આધારિત ફોર્મેટમાં ટેક્સ્ટ અને આકૃતિ-કેન્દ્રિત સામગ્રી જનરેટ કરું છું.

આવી સામગ્રી બનાવવા માટે ઘણા ફોર્મેટનો ઉપયોગ કરી શકાય છે.

શરૂઆતમાં, મેં Marp નો પ્રયાસ કર્યો, જે ખાસ કરીને પ્રેઝન્ટેશન નિર્માણ માટેનું ફોર્મેટ છે, પરંતુ તેની ક્ષમતાઓ મર્યાદિત હતી. તેથી, મેં વધુ સામાન્ય SVG ફોર્મેટનો ઉપયોગ કરવાનું નક્કી કર્યું, જે વેક્ટર ગ્રાફિક્સ માટે છે.

SVG જેવા ટેક્સ્ટ-આધારિત ફોર્મેટ સાથે, એક માનક ચેટ-આધારિત જનરેટિવ AI સામગ્રી બનાવી શકે છે જો તેને "કૃપા કરીને આ બ્લોગ લેખની સામગ્રી રજૂ કરતી SVG ફોર્મેટમાં પ્રેઝન્ટેશન સામગ્રી બનાવો" જેવી વિનંતી સાથે પ્રોમ્પ્ટ કરવામાં આવે.

ટેક્સ્ટ ઓવરફ્લો સમસ્યા

અહીં સમસ્યા એ છે કે દસ્તાવેજના બાહ્ય ફ્રેમ અથવા દસ્તાવેજની અંદરના આકૃતિઓના ફ્રેમની બહાર ટેક્સ્ટ વારંવાર લંબાય છે.

જ્યારે કોઈ માનવી પૂર્ણ થયેલ દસ્તાવેજ જુએ છે, ત્યારે તે તરત જ ટેક્સ્ટ ઓવરફ્લો નોટિસ કરશે. જો કે, પૂર્ણ થયેલ દસ્તાવેજની વિઝ્યુઅલ ઇન્સ્પેક્શનને બદલે, SVG ટેક્સ્ટ સ્ટેજ પર ટેક્સ્ટ ઓવરફ્લો શોધવાનું મુશ્કેલ છે.

પરિણામે, ચેટ-આધારિત જનરેટિવ AI વારંવાર ટેક્સ્ટ ઓવરફ્લો સાથે દસ્તાવેજો બનાવે છે.

અલબત્ત, AI મોટાભાગની સામગ્રી સારી રીતે જનરેટ કરે છે, અને હું ફક્ત ટેક્સ્ટ ઓવરફ્લોને મેન્યુઅલી સુધારી શકું છું. જોકે, આનાથી દર વખતે એક મેન્યુઅલ સ્ટેપ દાખલ થશે.

તેથી, SVG દસ્તાવેજો જનરેટ કરતી વખતે ટેક્સ્ટ ઓવરફ્લો અટકાવવા માટેના પગલાં શામેલ કરવા, અને જનરેટ થયેલ SVG માં કોઈ ટેક્સ્ટ ઓવરફ્લો છે કે નહીં તે આપમેળે શોધવા માટે એક પદ્ધતિ વિકસાવવી જરૂરી બની ગયું.

ટેક્સ્ટ ઓવરફ્લો અટકાવવા માટે, મેં જનરેટિવ AI ને પ્રેઝન્ટેશન સામગ્રી બનાવવા માટે સૂચના આપતી વખતે મૂળભૂત નિયમો, ઓપરેટિંગ પ્રક્રિયાઓ અને સાવચેતી નોંધો પ્રદાન કરવાનો અભિગમ અપનાવ્યો.

નિયમો તરીકે, મેં તેને જટિલ આકૃતિઓનો ઉપયોગ ન કરવા અને ટેક્સ્ટના ફોન્ટ કદને ઠીક કરવા સૂચના આપી.

વધુમાં, મેં તેને દસ્તાવેજમાં વાક્યમાં અક્ષરોની સંખ્યા ગણવાની, તે ફોન્ટ કદ દ્વારા ગુણાકાર કરીને પહોળાઈ અને ઊંચાઈનો અંદાજ કાઢવાની, અને પછી ટેક્સ્ટ ફ્રેમ અથવા આકૃતિઓ ઓવરફ્લો કરતું નથી તેની પૂર્વ-પુષ્ટિ કરવાની પ્રક્રિયાને અનુસરવા સૂચના આપી.

આ પ્રક્રિયા દરમિયાન, મેં AI ને ચકાસાયેલ પ્રક્રિયા અને પરિણામોને SVG ફાઇલમાં પૂર્વ-તપાસ ટિપ્પણીઓ તરીકે રેકોર્ડ કરવા સૂચના આપી.

આ સૂચનાઓ ઉમેરવાથી થોડો સુધારો થયો, પરંતુ પ્રારંભિક ચોકસાઈ સંતોષકારક ન હતી. તેથી, મેં વારંવાર ઘણી ભિન્નતા ઉત્પન્ન કરી, સૂચનાઓમાં સામાન્ય ભૂલના મુદ્દાઓને સાવચેતી નોંધો તરીકે ઉમેર્યા, અને નિયમો અને સૂચનાઓનું પાલન ન થતું હોય તો પ્રોમ્પ્ટ ટેક્સ્ટમાં વારંવાર ભાર મૂક્યો.

આ પ્રોમ્પ્ટ સુધારણાઓને ટ્રાયલ અને એરર દ્વારા પુનરાવર્તિત કરવાથી, ટેક્સ્ટ ઓવરફ્લો અમુક હદ સુધી દબાવી શકાય છે.

જોકે, આ બધા પ્રયત્નો છતાં, સંપૂર્ણતા પ્રાપ્ત કરી શકાતી નથી, તેથી મેં પછીના તબક્કે તપાસ લાગુ કરવાનું નક્કી કર્યું.

આ પોસ્ટ-જનરેશન તપાસ માટે, મેં છબીઓનું દૃષ્ટિની રીતે નિરીક્ષણ કરવામાં સક્ષમ જનરેટિવ AI નો ઉપયોગ કરવાનો પ્રયાસ કર્યો, પરંતુ તે ટેક્સ્ટ ઓવરફ્લોને અસરકારક રીતે શોધી શક્યું નહીં, તેથી મેં તે અભિગમ છોડી દીધો.

આગળ, મેં બીજી પદ્ધતિનો પ્રયાસ કર્યો: SVG ટેક્સ્ટને ચકાસણી માટે ચેટ-આધારિત જનરેટિવ AI માં પાછો દાખલ કરવો.

આ પદ્ધતિ દૃષ્ટિની નિરીક્ષણ AI કરતાં ટેક્સ્ટ ઓવરફ્લો શોધવામાં વધુ સારી હતી, પરંતુ તેની શોધ ચોકસાઈ હજી પણ ખૂબ ઊંચી ન હતી. અહીં ફરીથી, ઓવરફ્લો શોધવા માટેની સૂચનાઓમાં પુનરાવર્તિત સુધારો કરીને, હું ચોકસાઈના ચોક્કસ સ્તર સુધી પહોંચી શક્યો, પરંતુ સંપૂર્ણ સ્તર સુધી નહીં.

તેથી, મેં ટેક્સ્ટ ઓવરફ્લોને વધુ સખત રીતે શોધવા માટે એક પ્રોગ્રામ બનાવવાનું નક્કી કર્યું. આ પ્રોગ્રામ પ્રેઝન્ટેશન સામગ્રીમાં વાક્યોની લંબાઈ અને ફોન્ટ કદમાંથી પહોળાઈ અને ઊંચાઈની ગણતરી કરીને, જનરેટિવ AI ને સૂચના આપ્યા મુજબ, ટેક્સ્ટ દસ્તાવેજ ફ્રેમ અથવા આંતરિક આકૃતિઓને ઓવરફ્લો કરે છે કે નહીં તે તપાસે છે.

આ પ્રોગ્રામ બનાવવો કષ્ટદાયક હતો, પરંતુ તે આખરે સચોટ શોધ કરવામાં સક્ષમ બન્યો.

ટેક્સ્ટ ઓવરફ્લો ઉપરાંત, એવા કિસ્સાઓ પણ હતા જ્યાં AI એ જટિલ ચાર્ટ બનાવવાનો પ્રયાસ કર્યો અને વિકૃત આઉટપુટ ઉત્પન્ન કર્યા. આવા પાસાઓ માટે, મેં ચેટ-આધારિત જનરેટિવ AI ને નિયમ ઉલ્લંઘન તપાસ કરવા દેવાનો અભિગમ જાળવી રાખ્યો.

આ તપાસ નક્કી કરે છે કે AI એ નિયમોમાં નિર્ધારિત કરતાં વધુ જટિલ આકૃતિઓ બનાવી છે કે નહીં, તેમને અસ્વીકાર્ય તરીકે ચિહ્નિત કરે છે.

ઓવરફ્લો તપાસ માટેના આ પ્રોગ્રામ અને નિયમ ઉલ્લંઘન તપાસ માટે જનરેટિવ AI સાથે, હવે સમસ્યાઓ મોટાભાગે શોધી શકાય છે.

અનુગામી પ્રક્રિયા

જો આ તપાસ દરમિયાન કોઈ અસ્વીકૃતિ મળી આવે, તો જનરેટ કરાયેલી SVG-ફોર્મેટ સામગ્રી રદ કરવામાં આવે છે અને ફરીથી જનરેટ કરવામાં આવે છે. આ એટલા માટે છે કારણ કે સમસ્યાવાળા વિસ્તારોને નિર્દેશ કરવા અને સુધારવાથી ઘણીવાર અન્ય સમસ્યાઓ ઊભી થાય છે, જેનાથી અંતે વધુ સમય લાગે છે.

એકવાર ટેક્સ્ટ ઓવરફ્લો વિનાની પ્રેઝન્ટેશન સામગ્રી પૂર્ણ થઈ જાય, પછીનું પગલું આ સામગ્રી અને મૂળ બ્લોગ લેખને જનરેટિવ AI માં દાખલ કરીને વર્ણન સ્ક્રિપ્ટ બનાવવાનું છે. અહીં કોઈ ખાસ ચાતુર્યની જરૂર ન હતી.

પછી, વર્ણન સ્ક્રિપ્ટને ટેક્સ્ટ-ટુ-સ્પીચ જનરેટિવ AI નો ઉપયોગ કરીને ઑડિઓ ડેટામાં રૂપાંતરિત કરવામાં આવે છે. ફરીથી, આ માટે કોઈ ખાસ તકનીકોની જરૂર ન હતી.

છેવટે, SVG-ફોર્મેટ પ્રેઝન્ટેશન સામગ્રીને PNG છબીઓમાં રૂપાંતરિત કરવામાં આવે છે, અને પછી, ffmpeg નામના ટૂલનો ઉપયોગ કરીને, તેને ઑડિઓ સાથેના mp4 વીડિયોમાં રૂપાંતરિત કરવામાં આવે છે. આ પ્રક્રિયા પૂર્ણ કરે છે.

SVG-ફોર્મેટ સ્લાઇડ્સ બનાવ્યા પછીની પ્રક્રિયાઓની શ્રેણીને જનરેટિવ AI સાથે સલાહ લઈને પ્રોગ્રામ્સ લખીને સરળતાથી સ્વચાલિત કરી શકાય છે.

નિષ્કર્ષ

મેં આ સ્વચાલિત પ્રેઝન્ટેશન વીડિયો જનરેશન સિસ્ટમ સફળતાપૂર્વક બનાવી અને તેને સુધાર્યા પછી, ગયા અઠવાડિયે YouTube પર વીડિયો પ્રકાશિત કરવાનું શરૂ કર્યું.

જોકે, આ સિસ્ટમ પૂર્ણ થયાના થોડા સમય પછી, Google ના NotebookLM, એક AI ટૂલ, માં પણ ટેક્સ્ટ દસ્તાવેજો સમજાવવા માટે વીડિયો આપમેળે જનરેટ કરવાની સમાન સુવિધા ઉમેરવામાં આવી હતી.

તેથી, એવી અપેક્ષા છે કે ભવિષ્યમાં, AI સેવાઓ પ્રદાન કરતી કંપનીઓ સમાન સેવાઓ બહાર પાડશે, જેનાથી વ્યક્તિઓને શરૂઆતથી આવી સિસ્ટમો બનાવવાની જરૂરિયાત રહેશે નહીં.

તેમ છતાં, જનરેટિવ AI નો આવા ગંભીર રીતે લાભ ઉઠાવીને એક વ્યવહારુ પ્રોગ્રામ વિકસાવવો એ એક નોંધપાત્ર સિદ્ધિ રહી છે, જેનાથી મને જનરેટિવ AI નો અસરકારક રીતે ઉપયોગ કરવાના મુખ્ય સિદ્ધાંતોને સમજવાની તક મળી છે.