Vai al Contenuto
Questo articolo è stato tradotto dal giapponese utilizzando l'AI
Leggi in giapponese
Questo articolo è di Pubblico Dominio (CC0). Sentiti libero di usarlo liberamente. CC0 1.0 Universal

Generazione Automatica di Video di Presentazione da Articoli di Blog

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV

Ho sviluppato un sistema che utilizza l'IA generativa per creare automaticamente video di presentazione da articoli di blog e caricarli su YouTube.

Con un po' di ingegno, l'IA generativa può non solo ideare la trama della presentazione, ma anche creare i materiali di presentazione.

Inoltre, facendo creare all'IA generativa una sceneggiatura per la presentazione e poi facendo leggere tale sceneggiatura ad alta voce da un'IA generativa text-to-speech, è possibile generare anche dati audio.

La combinazione dei materiali di presentazione e dei dati audio produce quindi un video.

Automatizzando questa serie di compiti, ho reso possibile generare automaticamente video di presentazione con un singolo clic.

Meccanismo

La parte più cruciale del processo è la generazione dei materiali di presentazione.

L'IA generativa eccelle nella generazione di immagini, ma questa è tipicamente limitata a fotografie o disegni. Creare documenti incentrati su testo e figure, come i materiali di presentazione, è difficile per le IA che generano immagini.

Pertanto, genero materiali incentrati su testo e figure in un formato basato su testo, simile a un linguaggio di programmazione.

Diversi formati possono essere utilizzati per creare tali materiali.

Inizialmente, ho provato Marp, un formato specifico per la creazione di presentazioni, ma le sue capacità erano limitate. Così, ho deciso di utilizzare il formato SVG più generale, che è per la grafica vettoriale.

Con un formato basato su testo come SVG, un'IA generativa standard basata su chat può creare i materiali se sollecitata con una richiesta come: "Per favore, crea materiali di presentazione in formato SVG che introducano il contenuto di questo articolo di blog".

Problema dell'Overflow del Testo

Il problema qui è che il testo si estende frequentemente oltre la cornice esterna del documento o le cornici delle figure all'interno del documento.

Un essere umano noterebbe immediatamente l'overflow del testo visualizzando il documento completato. Tuttavia, rilevare l'overflow del testo nella fase di testo SVG, piuttosto che tramite ispezione visiva del documento finito, è difficile.

Di conseguenza, l'IA generativa basata su chat produce spesso documenti con frequenti overflow del testo.

Naturalmente, l'IA genera la maggior parte del contenuto correttamente, e potrei semplicemente correggere l'overflow del testo manualmente. Tuttavia, ciò introdurrebbe un passaggio manuale ogni volta.

Pertanto, è diventato necessario incorporare misure per prevenire l'overflow del testo durante la generazione di documenti SVG e sviluppare un meccanismo per rilevare automaticamente se è presente un overflow del testo nel SVG generato.

Per prevenire l'overflow del testo, ho adottato un approccio che consiste nel fornire all'IA generativa regole di base, procedure operative e note cautelative quando le si istruisce a creare materiali di presentazione.

Come regole, le ho istruito a non utilizzare figure complesse e a fissare la dimensione del carattere del testo.

Inoltre, le ho istruito a seguire una procedura per contare il numero di caratteri in una frase all'interno del documento, moltiplicarlo per la dimensione del carattere per stimare larghezza e altezza, e quindi pre-confermare che il testo non trabocchi dalla cornice o dalle figure.

Durante questo processo, ho istruito l'IA a registrare il processo verificato e i risultati come commenti di pre-verifica all'interno del file SVG.

L'aggiunta di queste istruzioni ha portato qualche miglioramento, ma l'accuratezza iniziale non era soddisfacente. Così, ho ripetutamente generato diverse varianti, aggiunto punti di errore comuni come note cautelative alle istruzioni, e enfatizzato ripetutamente regole e istruzioni all'interno del testo del prompt se non venivano seguite.

Iterando su questi miglioramenti del prompt attraverso tentativi ed errori, l'overflow del testo può essere soppresso in una certa misura.

Tuttavia, anche con tutti questi sforzi, la perfezione è irraggiungibile, quindi ho deciso di implementare un controllo in una fase successiva.

Per questo controllo post-generazione, ho provato a usare un'IA generativa capace di ispezionare visivamente le immagini, ma non riusciva a rilevare l'overflow del testo in modo efficace, quindi ho abbandonato quell'approccio.

Successivamente, ho tentato un altro metodo: inserire il testo SVG nuovamente in un'IA generativa basata su chat per la verifica.

Questo metodo era migliore nel rilevare l'overflow del testo rispetto all'IA di ispezione visiva, ma la sua accuratezza di rilevamento non era ancora molto elevata. Anche qui, migliorando iterativamente le istruzioni per il rilevamento dell'overflow, sono riuscito a raggiungere un certo livello di accuratezza, ma non uno perfetto.

Pertanto, ho deciso di creare un programma per rilevare l'overflow del testo in modo più rigoroso. Questo programma verifica se il testo supera la cornice del documento o le figure interne calcolando la larghezza e l'altezza dalla lunghezza delle frasi e dalla dimensione del carattere nei materiali di presentazione, come istruito all'IA generativa.

La creazione di questo programma è stata laboriosa, ma alla fine è diventato capace di una rilevazione accurata.

Oltre all'overflow del testo, ci sono stati anche casi in cui l'IA ha tentato di creare grafici complessi e ha prodotto output distorti. Per tali aspetti, ho mantenuto l'approccio di far eseguire all'IA generativa basata su chat un controllo di violazione delle regole.

Questo controllo determina se l'IA ha creato figure più complesse di quelle definite nelle regole, contrassegnandole come inaccettabili.

Con questo programma per il controllo dell'overflow e l'IA generativa per il controllo delle violazioni delle regole, i problemi possono ora essere in gran parte rilevati.

Elaborazione Successiva

Se viene rilevato un rifiuto durante questi controlli, il materiale generato in formato SVG viene scartato e rigenerato. Questo perché indicare e correggere le aree problematiche spesso porta ad altri problemi, richiedendo in definitiva più tempo.

Una volta completato un materiale di presentazione privo di overflow del testo, il passo successivo è inserire questo materiale e l'articolo del blog originale nell'IA generativa per creare la sceneggiatura della narrazione. Qui non è stata richiesta alcuna particolare ingegnosità.

Quindi, la sceneggiatura della narrazione viene convertita in dati audio utilizzando un'IA generativa text-to-speech. Anche in questo caso, non sono state necessarie tecniche speciali.

Infine, il materiale di presentazione in formato SVG viene convertito in immagini PNG, e poi, utilizzando uno strumento chiamato ffmpeg, viene convertito in un video mp4 con audio. Questo completa il processo.

La serie di processi successivi alla creazione delle diapositive in formato SVG può essere facilmente automatizzata scrivendo programmi in consultazione con l'IA generativa.

Conclusione

Avendo costruito e perfezionato con successo questo sistema di generazione automatica di video di presentazione, ho iniziato a pubblicare video su YouTube la scorsa settimana.

Tuttavia, poco dopo il completamento di questo sistema, anche NotebookLM di Google, uno strumento AI, ha acquisito una funzionalità simile per la generazione automatica di video esplicativi di documenti di testo.

Pertanto, si prevede che in futuro le aziende che offrono servizi di IA rilasceranno servizi simili, eliminando la necessità per gli individui di costruire tali sistemi da zero.

Ciononostante, lo sviluppo di un programma pratico che sfrutta l'IA generativa in modo così serio è stato un risultato significativo, permettendomi di cogliere i principi chiave per l'utilizzo efficace dell'IA generativa.