https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV
Nimeunda mfumo unaotumia AI ya kuzalisha ili kuunda video za mawasilisho kiotomatiki kutoka kwa makala za blogu na kuzipakia kwenye YouTube.
Kwa ubunifu kidogo, AI ya kuzalisha inaweza sio tu kubuni hadithi ya mawasilisho bali pia kuunda nyenzo za mawasilisho.
Zaidi ya hayo, kwa kuifanya AI ya kuzalisha kuunda hati ya mawasilisho kisha kuifanya AI ya kuzalisha hotuba-kwa-maandishi kusoma hati hiyo kwa sauti, data ya sauti pia inaweza kuzalishwa.
Kuunganisha nyenzo za mawasilisho na data ya sauti kisha huzalisha video.
Kwa kuendesha mfululizo huu wa kazi kiotomatiki, nimefanya iwezekanavyo kuzalisha video za mawasilisho kiotomatiki kwa kubofya mara moja.
Mfumo
Sehemu muhimu zaidi ya mchakato ni uzalishaji wa nyenzo za mawasilisho.
AI ya kuzalisha ni bingwa wa kuzalisha picha, lakini hii kwa kawaida huwekewa mipaka kwenye picha au michoro. Kuunda hati zinazozingatia maandishi na takwimu, kama vile nyenzo za mawasilisho, ni changamoto kwa AI zinazozalisha picha.
Kwa hivyo, mimi huzalisha nyenzo zinazozingatia maandishi na takwimu katika umbizo la maandishi, sawa na lugha ya programu.
Umbizo kadhaa zinaweza kutumika kwa kuunda nyenzo kama hizo.
Hapo awali, nilijaribu Marp, umbizo maalum kwa ajili ya kuunda mawasilisho, lakini uwezo wake ulikuwa mdogo. Kwa hivyo, niliamua kutumia umbizo la SVG lililo la jumla zaidi, ambalo ni kwa ajili ya michoro ya vekta.
Kwa umbizo la maandishi kama SVG, AI ya kawaida ya kuzalisha inayotegemea mazungumzo inaweza kuunda nyenzo hizo ikiulizwa na ombi kama, "Tafadhali unda nyenzo za mawasilisho katika umbizo la SVG zikieleza maudhui ya makala hii ya blogu."
Tatizo la Kuzidi kwa Maandishi
Tatizo hapa ni kwamba maandishi mara nyingi huzidi fremu ya nje ya hati au fremu za takwimu ndani ya hati.
Binadamu angetambua mara moja tatizo la kuzidi kwa maandishi anapoangalia hati iliyokamilika. Hata hivyo, kugundua tatizo la kuzidi kwa maandishi katika hatua ya maandishi ya SVG, badala ya kupitia ukaguzi wa macho wa hati iliyokamilika, ni ngumu.
Kwa hiyo, AI ya kuzalisha inayotegemea mazungumzo mara nyingi hutoa hati zenye maandishi mengi yanayozidi mipaka.
Bila shaka, AI huzalisha sehemu kubwa ya maudhui vizuri, na ningeweza tu kurekebisha maandishi yanayozidi mipaka kwa mikono. Hata hivyo, hii ingeleta hatua ya mikono kila wakati.
Kwa hivyo, ilibidi kuingiza hatua za kuzuia maandishi kuzidi mipaka wakati wa kuzalisha hati za SVG, na kuunda utaratibu wa kugundua kiotomatiki kama kuna maandishi yoyote yaliyozidi mipaka katika SVG iliyozalishwa.
Ili kuzuia maandishi kuzidi mipaka, nilitumia mbinu ya kutoa AI ya kuzalisha sheria za msingi, taratibu za uendeshaji, na maelezo ya tahadhari wakati wa kuielekeza kuunda nyenzo za mawasilisho.
Kama sheria, niliielekeza isitumie takwimu ngumu na kurekebisha ukubwa wa fonti ya maandishi.
Zaidi ya hayo, niliielekeza kufuata utaratibu wa kuhesabu idadi ya herufi katika sentensi ndani ya hati, kuzidisha hiyo kwa ukubwa wa fonti kukadiria upana na urefu, na kisha kuthibitisha mapema kuwa maandishi hayazidi fremu au takwimu.
Wakati wa mchakato huu, niliielekeza AI kurekodi mchakato uliokaguliwa na matokeo kama maoni ya ukaguzi wa awali ndani ya faili ya SVG.
Kuongeza maelekezo haya kulileta uboreshaji kidogo, lakini usahihi wa awali haukuwa wa kuridhisha. Kwa hivyo, nilizalisha mara kwa mara tofauti kadhaa, nikaongeza sehemu za makosa ya kawaida kama maelezo ya tahadhari kwa maelekezo, na nikasisitiza sheria na maelekezo mara kwa mara ndani ya maandishi ya ombi ikiwa hayakufuatwa.
Kwa kurudia maboresho haya ya ombi kupitia majaribio na makosa, kuzidi kwa maandishi kunaweza kuzuiliwa kwa kiasi fulani.
Hata hivyo, hata kwa juhudi zote hizi, ukamilifu haupatikani, kwa hivyo niliamua kutekeleza ukaguzi katika hatua ya baadaye.
Kwa ukaguzi huu wa baada ya uzalishaji, nilijaribu kutumia AI ya kuzalisha yenye uwezo wa kukagua picha, lakini haikuweza kugundua maandishi yanayozidi mipaka kwa ufanisi, kwa hivyo niliachana na mbinu hiyo.
Kisha, nilijaribu njia nyingine: kuingiza maandishi ya SVG tena kwenye AI ya kuzalisha inayotegemea mazungumzo kwa ajili ya kukagua.
Njia hii ilikuwa bora katika kugundua maandishi yanayozidi mipaka kuliko AI ya ukaguzi wa macho, lakini usahihi wake wa kugundua bado haukuwa wa juu sana. Hapa tena, kwa kuboresha mara kwa mara maelekezo ya kugundua kuzidi kwa maandishi, ningeweza kufikia kiwango fulani cha usahihi, lakini sio kiwango kamili.
Kwa hivyo, niliamua kuunda programu ya kugundua maandishi yanayozidi mipaka kwa usahihi zaidi. Programu hii inakagua kama maandishi yanazidi fremu ya hati au takwimu za ndani kwa kuhesabu upana na urefu kutoka kwa urefu wa sentensi na ukubwa wa fonti katika nyenzo za mawasilisho, kama ilivyoelekezwa kwa AI ya kuzalisha.
Kuunda programu hii kulikuwa kwa bidii, lakini hatimaye ikawa na uwezo wa kugundua kwa usahihi.
Mbali na kuzidi kwa maandishi, pia kulikuwa na matukio ambapo AI ilijaribu kuunda chati ngumu na kutoa matokeo yaliyopotosha. Kwa vipengele kama hivyo, niliendelea kutumia mbinu ya kuifanya AI ya kuzalisha inayotegemea mazungumzo kufanya ukaguzi wa ukiukaji wa sheria.
Ukaguzi huu huamua kama AI iliunda takwimu ambazo ni ngumu zaidi kuliko ilivyoelezwa katika sheria, ikiziweka alama kama zisizokubalika.
Kwa programu hii ya ukaguzi wa kuzidi kwa maandishi na AI ya kuzalisha kwa ukaguzi wa ukiukaji wa sheria, matatizo sasa yanaweza kugunduliwa kwa kiasi kikubwa.
Uchakataji Unaofuata
Ikiwa kukataliwa kugunduliwa wakati wa ukaguzi huu, nyenzo iliyozalishwa ya umbizo la SVG hutupwa na kuzalishwa upya. Hii ni kwa sababu kuonesha na kurekebisha maeneo yenye matatizo mara nyingi husababisha matatizo mengine, na hatimaye kuchukua muda mwingi.
Mara tu nyenzo ya wasilisho isiyo na kuzidi kwa maandishi imekamilika, hatua inayofuata ni kuingiza nyenzo hii na makala ya awali ya blogu kwa AI ya kuzalisha ili kuunda hati ya simulizi. Hakuna ubunifu maalum uliohitajika hapa.
Kisha, hati ya simulizi inabadilishwa kuwa data ya sauti kwa kutumia AI ya kuzalisha hotuba-kwa-maandishi. Tena, hakuna mbinu maalum zilizohitajika kwa hili.
Mwishowe, nyenzo ya wasilisho ya umbizo la SVG inabadilishwa kuwa picha za PNG, na kisha, kwa kutumia zana inayoitwa ffmpeg, inabadilishwa kuwa video ya mp4 yenye sauti. Hii inakamilisha mchakato.
Mfululizo wa michakato inayofuata uundaji wa slaidi za umbizo la SVG inaweza kuendeshwa kiotomatiki kwa urahisi kwa kuandika programu huku ukishauriana na AI ya kuzalisha.
Hitimisho
Baada ya kufanikiwa kujenga na kuboresha mfumo huu wa uzalishaji otomatiki wa video za mawasilisho mwenyewe, nilianza kuchapisha video kwenye YouTube wiki iliyopita.
Hata hivyo, muda mfupi baada ya mfumo huu kukamilika, NotebookLM ya Google, zana ya AI, pia ilipata kipengele sawa cha kuzalisha video kiotomatiki kuelezea hati za maandishi.
Kwa hivyo, inatarajiwa kwamba hapo baadaye, kampuni zinazotoa huduma za AI zitatoa huduma zinazofanana, zikiondoa hitaji kwa watu binafsi kujenga mifumo kama hiyo kutoka mwanzo.
Hata hivyo, kuunda programu inayotumika kwa vitendo inayotumia AI ya kuzalisha kwa namna hiyo makini imekuwa mafanikio makubwa, na imenipa uwezo wa kuelewa kanuni muhimu za kutumia AI ya kuzalisha kwa ufanisi.