Saltar al Contenido
Este artículo ha sido traducido del japonés usando IA
Leer en japonés
Este artículo es de Dominio Público (CC0). Siéntete libre de usarlo libremente. CC0 1.0 Universal

Generación automática de videos de presentación a partir de publicaciones de blog

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV

Desarrollé un sistema que utiliza IA generativa para crear automáticamente videos de presentación a partir de artículos de blog y subirlos a YouTube.

Con algo de ingenio, la IA generativa no solo puede idear el argumento de la presentación, sino también crear los materiales de presentación.

Además, al hacer que la IA generativa cree un guion para la presentación y luego hacer que una IA generativa de texto a voz lea ese guion en voz alta, también se pueden generar datos de audio.

La combinación de los materiales de presentación y los datos de audio produce un video.

Al automatizar esta serie de tareas, he logrado que sea posible generar automáticamente videos de presentación con un solo clic.

Mecanismo

La parte más crucial del proceso es la generación de los materiales de presentación.

La IA generativa sobresale en la generación de imágenes, pero esto se limita típicamente a fotografías o dibujos. Crear documentos centrados en texto y figuras, como los materiales de presentación, es un desafío para las IA que generan imágenes.

Por lo tanto, genero materiales centrados en texto y figuras en un formato basado en texto, similar a un lenguaje de programación.

Existen varios formatos que se pueden utilizar para crear dichos materiales.

Inicialmente, probé Marp, un formato específico para la creación de presentaciones, pero sus capacidades eran limitadas. Así que decidí usar el formato SVG, más general, que es para gráficos vectoriales.

Con un formato basado en texto como SVG, una IA generativa estándar basada en chat puede crear los materiales si se le solicita con una petición como: "Por favor, crea materiales de presentación en formato SVG que introduzcan el contenido de este artículo del blog".

Problema de Desbordamiento de Texto

El problema aquí es que el texto con frecuencia se extiende más allá del marco exterior del documento o de los marcos de las figuras dentro del documento.

Un humano notaría inmediatamente el desbordamiento de texto al ver el documento completado. Sin embargo, detectar el desbordamiento de texto en la etapa de texto SVG, en lugar de mediante la inspección visual del documento finalizado, es difícil.

En consecuencia, la IA generativa basada en chat a menudo produce documentos con desbordamiento de texto frecuente.

Por supuesto, la IA genera la mayor parte del contenido correctamente, y yo podría simplemente corregir el desbordamiento de texto manualmente. Sin embargo, esto introduciría un paso manual cada vez.

Por lo tanto, se hizo necesario incorporar medidas para evitar el desbordamiento de texto al generar documentos SVG, y desarrollar un mecanismo para detectar automáticamente si hay algún desbordamiento de texto en el SVG generado.

Para evitar el desbordamiento de texto, adopté un enfoque de proporcionar a la IA generativa reglas básicas, procedimientos operativos y notas de precaución al instruirla para crear materiales de presentación.

Como reglas, le indiqué que no usara figuras complejas y que fijara el tamaño de fuente del texto.

Además, le indiqué que siguiera un procedimiento para contar el número de caracteres en una oración dentro del documento, multiplicarlo por el tamaño de fuente para estimar el ancho y la altura, y luego confirmar previamente que el texto no se desborda del marco o las figuras.

Durante este proceso, instruí a la IA para que registrara el proceso verificado y los resultados como comentarios de pre-verificación dentro del archivo SVG.

Agregar estas instrucciones trajo algunas mejoras, pero la precisión inicial no fue satisfactoria. Así que, generé repetidamente varias variaciones, agregué puntos de error comunes como notas de precaución a las instrucciones, y enfaticé las reglas e instrucciones repetidamente dentro del texto de la instrucción si no se seguían.

Al iterar en estas mejoras de instrucciones mediante prueba y error, el desbordamiento de texto se puede suprimir hasta cierto punto.

Sin embargo, incluso con todos estos esfuerzos, la perfección es inalcanzable, por lo que decidí implementar una verificación en una etapa posterior.

Para esta verificación posterior a la generación, intenté usar una IA generativa capaz de inspeccionar visualmente imágenes, pero no pudo detectar el desbordamiento de texto de manera efectiva, por lo que abandoné ese enfoque.

A continuación, intenté otro método: introducir el texto SVG nuevamente en una IA generativa basada en chat para su verificación.

Este método fue mejor para detectar el desbordamiento de texto que la IA de inspección visual, pero su precisión de detección seguía sin ser muy alta. Aquí, nuevamente, al mejorar iterativamente las instrucciones para detectar el desbordamiento, pude lograr un cierto nivel de precisión, pero no uno perfecto.

Por lo tanto, decidí crear un programa para detectar el desbordamiento de texto de manera más rigurosa. Este programa verifica si el texto se desborda del marco del documento o de las figuras internas calculando el ancho y la altura a partir de la longitud de las oraciones y el tamaño de fuente en los materiales de presentación, según se le indicó a la IA generativa.

Crear este programa fue laborioso, pero finalmente logró una detección precisa.

Además del desbordamiento de texto, también hubo casos en los que la IA intentó crear gráficos complejos y produjo resultados distorsionados. Para tales aspectos, mantuve el enfoque de hacer que la IA generativa basada en chat realizara una verificación de infracción de reglas.

Esta verificación determina si la IA creó figuras que son más complejas de lo definido en las reglas, marcándolas como inaceptables.

Con este programa para la verificación de desbordamiento y la IA generativa para la verificación de infracción de reglas, los problemas ahora se pueden detectar en gran medida.

Procesamiento Posterior

Si se detecta un rechazo durante estas verificaciones, el material generado en formato SVG se descarta y se regenera. Esto se debe a que señalar y corregir áreas problemáticas a menudo conduce a otros problemas, lo que en última instancia consume más tiempo.

Una vez que el material de presentación sin desbordamiento de texto está completo, el siguiente paso es introducir este material y el artículo de blog original en la IA generativa para crear el guion de la narración. Aquí no se requirió ninguna ingeniosidad particular.

Luego, el guion de la narración se convierte en datos de audio utilizando una IA generativa de texto a voz. De nuevo, no se necesitaron técnicas especiales para esto.

Finalmente, el material de presentación en formato SVG se convierte en imágenes PNG, y luego, utilizando una herramienta llamada ffmpeg, se convierte en un video mp4 con audio. Esto completa el proceso.

La serie de procesos posteriores a la creación de diapositivas en formato SVG se puede automatizar fácilmente escribiendo programas mientras se consulta con la IA generativa.

Conclusión

Habiendo construido y perfeccionado con éxito este sistema automatizado de generación de videos de presentación, comencé a publicar videos en YouTube la semana pasada.

Sin embargo, poco después de que se completara este sistema, NotebookLM de Google, una herramienta de IA, también incorporó una función similar para generar automáticamente videos que explican documentos de texto.

Por lo tanto, se prevé que en el futuro, las empresas que ofrecen servicios de IA lanzarán servicios similares, eliminando la necesidad de que los individuos construyan tales sistemas desde cero.

No obstante, desarrollar un programa práctico que aproveche la IA generativa de una manera tan seria ha sido un logro significativo, permitiéndome comprender los principios clave para utilizar la IA generativa de manera efectiva.