Lewati ke Konten
Artikel ini telah diterjemahkan dari bahasa Jepang menggunakan AI
Baca dalam bahasa Jepang
Artikel ini berada dalam Domain Publik (CC0). Silakan gunakan secara bebas. CC0 1.0 Universal

Pembuatan Video Presentasi Otomatis dari Artikel Blog

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV

Saya mengembangkan sebuah sistem yang menggunakan AI generatif untuk secara otomatis membuat video presentasi dari artikel blog dan mengunggahnya ke YouTube.

Dengan sedikit kecerdikan, AI generatif tidak hanya dapat menyusun alur cerita presentasi, tetapi juga membuat materi presentasinya.

Selain itu, dengan meminta AI generatif membuat naskah untuk presentasi dan kemudian meminta AI generatif text-to-speech membaca naskah tersebut, data audio juga dapat dihasilkan.

Menggabungkan materi presentasi dan data audio kemudian akan menghasilkan sebuah video.

Dengan mengotomatiskan serangkaian tugas ini, saya telah memungkinkan pembuatan video presentasi secara otomatis hanya dengan satu klik.

Mekanisme

Bagian terpenting dari proses ini adalah pembuatan materi presentasi.

AI generatif unggul dalam menghasilkan gambar, tetapi ini biasanya terbatas pada foto atau gambar. Membuat dokumen yang berpusat pada teks dan figur, seperti materi presentasi, sulit dilakukan oleh AI penghasil gambar.

Oleh karena itu, saya menghasilkan materi yang berpusat pada teks dan figur dalam format berbasis teks, mirip dengan bahasa pemrograman.

Beberapa format dapat digunakan untuk membuat materi semacam itu.

Awalnya, saya mencoba Marp, sebuah format khusus untuk pembuatan presentasi, tetapi kemampuannya terbatas. Jadi, saya memutuskan untuk menggunakan format SVG yang lebih umum, yaitu untuk grafik vektor.

Dengan format berbasis teks seperti SVG, AI generatif berbasis obrolan standar dapat membuat materi jika diminta dengan perintah seperti, "Harap buat materi presentasi dalam format SVG yang memperkenalkan konten artikel blog ini."

Masalah Luapan Teks

Masalah di sini adalah teks sering kali melampaui bingkai luar dokumen atau bingkai figur di dalam dokumen.

Manusia akan segera menyadari luapan teks saat melihat dokumen yang telah selesai. Namun, mendeteksi luapan teks pada tahap teks SVG, daripada melalui pemeriksaan visual dokumen yang telah selesai, sulit dilakukan.

Akibatnya, AI generatif berbasis obrolan sering menghasilkan dokumen dengan luapan teks yang sering terjadi.

Tentu saja, AI menghasilkan sebagian besar konten dengan baik, dan saya bisa saja mengoreksi luapan teks secara manual. Namun, ini akan memperkenalkan langkah manual setiap kali.

Oleh karena itu, menjadi perlu untuk menggabungkan langkah-langkah untuk mencegah luapan teks saat menghasilkan dokumen SVG, dan untuk mengembangkan mekanisme untuk secara otomatis mendeteksi jika ada luapan teks dalam SVG yang dihasilkan.

Untuk mencegah luapan teks, saya mengadopsi pendekatan dengan memberikan AI generatif aturan dasar, prosedur operasi, dan catatan peringatan saat menginstruksikannya untuk membuat materi presentasi.

Sebagai aturan, saya menginstruksikannya untuk tidak menggunakan figur yang kompleks dan untuk memperbaiki ukuran font teks.

Selanjutnya, saya menginstruksikannya untuk mengikuti prosedur menghitung jumlah karakter dalam sebuah kalimat di dalam dokumen, mengalikan dengan ukuran font untuk memperkirakan lebar dan tinggi, dan kemudian mengkonfirmasi sebelumnya bahwa teks tidak melampaui bingkai atau figur.

Selama proses ini, saya menginstruksikan AI untuk merekam proses yang diperiksa dan hasilnya sebagai komentar pra-pemeriksaan di dalam file SVG.

Menambahkan instruksi ini membawa beberapa peningkatan, tetapi akurasi awal tidak memuaskan. Jadi, saya berulang kali menghasilkan beberapa variasi, menambahkan poin kesalahan umum sebagai catatan peringatan pada instruksi, dan menekankan aturan dan instruksi berulang kali dalam teks perintah jika tidak diikuti.

Dengan mengulang-ulang perbaikan perintah ini melalui coba-coba, luapan teks dapat ditekan hingga batas tertentu.

Namun, bahkan dengan semua upaya ini, kesempurnaan tidak dapat dicapai, jadi saya memutuskan untuk menerapkan pemeriksaan pada tahap selanjutnya.

Untuk pemeriksaan pasca-generasi ini, saya mencoba menggunakan AI generatif yang mampu memeriksa gambar secara visual, tetapi tidak dapat mendeteksi luapan teks secara efektif, jadi saya meninggalkan pendekatan itu.

Selanjutnya, saya mencoba metode lain: memasukkan teks SVG kembali ke AI generatif berbasis obrolan untuk diperiksa.

Metode ini lebih baik dalam mendeteksi luapan teks daripada AI inspeksi visual, tetapi akurasi deteksinya masih belum terlalu tinggi. Di sini lagi, dengan meningkatkan instruksi untuk mendeteksi luapan secara iteratif, saya dapat mencapai tingkat akurasi tertentu, tetapi bukan yang sempurna.

Oleh karena itu, saya memutuskan untuk membuat program untuk mendeteksi luapan teks secara lebih ketat. Program ini memeriksa apakah teks melampaui bingkai dokumen atau figur internal dengan menghitung lebar dan tinggi dari panjang kalimat dan ukuran font dalam materi presentasi, seperti yang diinstruksikan kepada AI generatif.

Membuat program ini melelahkan, tetapi pada akhirnya program ini mampu mendeteksi secara akurat.

Selain luapan teks, ada juga kasus di mana AI mencoba membuat bagan kompleks dan menghasilkan keluaran yang terdistorsi. Untuk aspek-aspek tersebut, saya mempertahankan pendekatan dengan meminta AI generatif berbasis obrolan melakukan pemeriksaan pelanggaran aturan.

Pemeriksaan ini menentukan apakah AI membuat figur yang lebih kompleks daripada yang didefinisikan dalam aturan, menandainya sebagai tidak dapat diterima.

Dengan program pemeriksaan luapan ini dan AI generatif untuk pemeriksaan pelanggaran aturan, masalah kini dapat dideteksi secara luas.

Pemrosesan Selanjutnya

Jika penolakan terdeteksi selama pemeriksaan ini, materi format SVG yang dihasilkan akan dibuang dan dibuat ulang. Hal ini karena menunjukkan dan mengoreksi area bermasalah seringkali menyebabkan masalah lain, yang pada akhirnya memakan lebih banyak waktu.

Setelah materi presentasi bebas luapan teks selesai, langkah selanjutnya adalah memasukkan materi ini dan artikel blog asli ke AI generatif untuk membuat naskah narasi. Tidak ada kecerdikan khusus yang diperlukan di sini.

Kemudian, naskah narasi diubah menjadi data audio menggunakan AI generatif text-to-speech. Sekali lagi, tidak ada teknik khusus yang diperlukan untuk ini.

Terakhir, materi presentasi format SVG diubah menjadi gambar PNG, dan kemudian, menggunakan alat bernama ffmpeg, diubah menjadi video mp4 dengan audio. Ini menyelesaikan prosesnya.

Serangkaian proses setelah pembuatan slide format SVG dapat dengan mudah diotomatisasi dengan menulis program sambil berkonsultasi dengan AI generatif.

Kesimpulan

Setelah berhasil membangun dan menyempurnakan sendiri sistem pembuatan video presentasi otomatis ini, saya mulai menerbitkan video di YouTube minggu lalu.

Namun, tak lama setelah sistem ini selesai, NotebookLM milik Google, sebuah alat AI, juga memperoleh fitur serupa untuk secara otomatis menghasilkan video guna menjelaskan dokumen teks.

Oleh karena itu, di masa mendatang, diperkirakan bahwa perusahaan-perusahaan yang menawarkan layanan AI akan merilis layanan serupa, sehingga menghilangkan kebutuhan individu untuk membangun sistem semacam itu dari awal.

Meskipun demikian, mengembangkan program praktis yang memanfaatkan AI generatif dengan cara yang serius telah menjadi pencapaian yang signifikan, memungkinkan saya untuk memahami prinsip-prinsip utama pemanfaatan AI generatif secara efektif.