Zum Inhalt springen
Dieser Artikel wurde mittels KI aus dem Japanischen übersetzt
Auf Japanisch lesen
Dieser Artikel ist gemeinfrei (CC0). Fühlen Sie sich frei, ihn uneingeschränkt zu nutzen. CC0 1.0 Universal

Automatische Generierung von Präsentationsvideos aus Blogbeiträgen

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV

Ich habe ein System entwickelt, das mithilfe generativer KI automatisch Präsentationsvideos aus Blogartikeln erstellt und auf YouTube hochlädt.

Mit etwas Einfallsreichtum kann generative KI nicht nur die Erzählstruktur der Präsentation entwerfen, sondern auch die Präsentationsmaterialien erstellen.

Darüber hinaus können Audiodaten erzeugt werden, indem man eine generative KI ein Skript für die Präsentation erstellen lässt und dieses Skript dann von einer Text-to-Speech-KI vorlesen lässt.

Die Kombination der Präsentationsmaterialien und der Audiodaten ergibt dann ein Video.

Durch die Automatisierung dieser Aufgabenreihe ist es mir gelungen, Präsentationsvideos mit einem einzigen Klick automatisch zu generieren.

Mechanismus

Der wichtigste Teil des Prozesses ist die Generierung der Präsentationsmaterialien.

Generative KI ist hervorragend darin, Bilder zu erzeugen, aber dies beschränkt sich typischerweise auf Fotografien oder Zeichnungen. Die Erstellung von Dokumenten, die sich um Text und Figuren drehen, wie Präsentationsmaterialien, ist für bildgenerierende KIs eine Herausforderung.

Daher generiere ich text- und figurenzentrierte Materialien in einem textbasierten Format, ähnlich einer Programmiersprache.

Für die Erstellung solcher Materialien können verschiedene Formate verwendet werden.

Anfangs habe ich Marp ausprobiert, ein Format speziell für die Präsentationserstellung, dessen Funktionen jedoch begrenzt waren. Daher entschied ich mich für das allgemeinere SVG-Format, das für Vektorgrafiken gedacht ist.

Mit einem textbasierten Format wie SVG kann eine standardmäßige Chat-basierte generative KI die Materialien erstellen, wenn sie mit einer Anfrage wie „Bitte erstellen Sie Präsentationsmaterialien im SVG-Format, die den Inhalt dieses Blogartikels vorstellen“ aufgefordert wird.

Textüberlaufproblem

Das Problem hierbei ist, dass Text häufig über den äußeren Rahmen des Dokuments oder die Rahmen von Abbildungen innerhalb des Dokuments hinausragt.

Ein Mensch würde einen Textüberlauf sofort bemerken, wenn er das fertige Dokument betrachtet. Die Erkennung eines Textüberlaufs im SVG-Textstadium ist jedoch schwierig, anstatt durch eine visuelle Überprüfung des fertigen Dokuments.

Folglich erstellt die Chat-basierte generative KI oft Dokumente mit häufigem Textüberlauf.

Natürlich generiert die KI den größten Teil des Inhalts gut, und ich könnte den Textüberlauf einfach manuell korrigieren. Dies würde jedoch jedes Mal einen manuellen Schritt einführen.

Daher wurde es notwendig, Maßnahmen zu ergreifen, um Textüberlauf bei der Generierung von SVG-Dokumenten zu verhindern, und einen Mechanismus zu entwickeln, um automatisch zu erkennen, ob im generierten SVG Textüberlauf vorhanden ist.

Um Textüberlauf zu verhindern, habe ich einen Ansatz gewählt, der darin besteht, der generativen KI grundlegende Regeln, Arbeitsabläufe und Vorsichtshinweise zu geben, wenn sie angewiesen wird, Präsentationsmaterialien zu erstellen.

Als Regeln habe ich angewiesen, keine komplexen Figuren zu verwenden und die Schriftgröße des Textes festzulegen.

Des Weiteren habe ich angewiesen, ein Verfahren zu befolgen, bei dem die Anzahl der Zeichen in einem Satz innerhalb des Dokuments gezählt, diese mit der Schriftgröße multipliziert wird, um Breite und Höhe abzuschätzen, und dann vorab bestätigt wird, dass der Text den Rahmen oder die Figuren nicht überläuft.

Während dieses Prozesses habe ich die KI angewiesen, den geprüften Prozess und die Ergebnisse als Vorabprüfungskommentare in der SVG-Datei festzuhalten.

Das Hinzufügen dieser Anweisungen führte zu einer gewissen Verbesserung, aber die anfängliche Genauigkeit war nicht zufriedenstellend. Daher habe ich wiederholt mehrere Varianten generiert, häufige Fehlerpunkte als Warnhinweise zu den Anweisungen hinzugefügt und Regeln und Anweisungen wiederholt im Prompt-Text betont, wenn sie nicht befolgt wurden.

Durch die iterative Verbesserung dieser Prompts durch Versuch und Irrtum kann der Textüberlauf bis zu einem gewissen Grad unterdrückt werden.

Doch selbst mit all diesen Bemühungen ist Perfektion unerreichbar, daher beschloss ich, eine Überprüfung in einem späteren Stadium zu implementieren.

Für diese Nach-Generierungsprüfung habe ich versucht, eine generative KI zu verwenden, die Bilder visuell inspizieren kann, aber sie konnte Textüberlauf nicht effektiv erkennen, daher habe ich diesen Ansatz aufgegeben.

Als Nächstes versuchte ich eine andere Methode: den SVG-Text erneut in eine Chat-basierte generative KI zur Überprüfung einzugeben.

Diese Methode war besser darin, Textüberlauf zu erkennen als die visuelle Inspektions-KI, aber ihre Erkennungsgenauigkeit war immer noch nicht sehr hoch. Auch hier konnte ich durch iterative Verbesserung der Anweisungen zur Überlauferkennung ein gewisses Maß an Genauigkeit erreichen, aber keine perfekte.

Daher habe ich beschlossen, ein Programm zu erstellen, um den Textüberlauf strenger zu erkennen. Dieses Programm prüft, ob der Text den Dokumentrahmen oder interne Abbildungen überläuft, indem es die Breite und Höhe aus der Länge der Sätze und der Schriftgröße in den Präsentationsmaterialien berechnet, wie es der generativen KI angewiesen wurde.

Die Erstellung dieses Programms war mühsam, aber letztendlich war es in der Lage, genaue Erkennungen durchzuführen.

Zusätzlich zum Textüberlauf gab es auch Fälle, in denen die KI versuchte, komplexe Diagramme zu erstellen und verzerrte Ausgaben produzierte. Für solche Aspekte behielt ich den Ansatz bei, die Chat-basierte generative KI eine Regelverletzungsprüfung durchführen zu lassen.

Diese Prüfung stellt fest, ob die KI komplexere Figuren erstellt hat, als in den Regeln definiert, und markiert diese als inakzeptabel.

Mit diesem Programm zur Überlaufprüfung und der generativen KI zur Regelverletzungsprüfung können Probleme nun weitgehend erkannt werden.

Nachfolgende Verarbeitung

Wird bei diesen Prüfungen eine Ablehnung festgestellt, wird das generierte Material im SVG-Format verworfen und neu erstellt. Der Grund dafür ist, dass das Aufzeigen und Korrigieren problematischer Bereiche oft zu weiteren Problemen führt und letztendlich mehr Zeit in Anspruch nimmt.

Sobald ein präsentationsreifes Material ohne Textüberlauf fertiggestellt ist, besteht der nächste Schritt darin, dieses Material und den ursprünglichen Blogartikel in die generative KI einzugeben, um das Skript für die Erzählung zu erstellen. Hier war keine besondere Raffinesse erforderlich.

Anschließend wird das Erzählskript mithilfe einer Text-to-Speech-KI in Audiodaten umgewandelt. Auch hier waren keine speziellen Techniken erforderlich.

Zum Schluss wird das Präsentationsmaterial im SVG-Format in PNG-Bilder umgewandelt und dann mithilfe eines Tools namens ffmpeg in ein MP4-Video mit Audio konvertiert. Damit ist der Prozess abgeschlossen.

Die Abfolge der Prozesse nach der Erstellung der SVG-Folien lässt sich leicht durch das Schreiben von Programmen automatisieren, während man generative KI konsultiert.

Fazit

Nachdem ich dieses System zur automatisierten Generierung von Präsentationsvideos selbst erfolgreich aufgebaut und verfeinert hatte, begann ich letzte Woche damit, Videos auf YouTube zu veröffentlichen.

Kurz nach Fertigstellung dieses Systems erhielt jedoch auch Googles NotebookLM, ein KI-Tool, eine ähnliche Funktion zur automatischen Generierung von Videos zur Erläuterung von Textdokumenten.

Daher wird erwartet, dass in Zukunft Unternehmen, die KI-Dienste anbieten, ähnliche Dienste veröffentlichen werden, wodurch die Notwendigkeit für Einzelpersonen entfällt, solche Systeme von Grund auf neu zu entwickeln.

Nichtsdestotrotz war die Entwicklung eines praktischen Programms, das generative KI auf solch ernsthafte Weise nutzt, eine bedeutende Leistung, die es mir ermöglichte, die Schlüsselprinzipien des effektiven Einsatzes generativer KI zu verstehen.