İçeriğe Atla
Bu makale, yapay zeka kullanılarak Japoncadan çevrilmiştir
Japonca oku
Bu makale Kamu Malı (CC0)'dır. Özgürce kullanmaktan çekinmeyin. CC0 1.0 Universal

Blog Yazılarından Otomatik Sunum Videosu Üretimi

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV

Üretken yapay zekayı kullanarak blog yazılarından otomatik olarak sunum videoları oluşturan ve bunları YouTube'a yükleyen bir sistem geliştirdim.

Biraz yaratıcılıkla, üretken yapay zeka sadece sunumun hikayesini tasarlamakla kalmaz, aynı zamanda sunum materyallerini de oluşturabilir.

Ayrıca, üretken yapay zekaya sunum için bir metin yazdırıp, ardından bir metin okuma üretken yapay zekasının bu metni sesli olarak okumasını sağlayarak ses verileri de oluşturulabilir.

Sunum materyalleri ve ses verileri birleştirildiğinde bir video ortaya çıkar.

Bu görev serisini otomatikleştirerek, tek bir tıklamayla otomatik olarak sunum videoları oluşturmayı mümkün kıldım.

Mekanizma

Sürecin en önemli kısmı sunum materyallerinin üretimidir.

Üretken yapay zeka, görüntü oluşturmada mükemmeldir, ancak bu genellikle fotoğraflar veya çizimlerle sınırlıdır. Sunum materyalleri gibi metin ve şekil odaklı belgeler oluşturmak, görüntü üreten yapay zekalar için zordur.

Bu nedenle, metin ve şekil odaklı materyalleri, bir programlama diline benzer şekilde metin tabanlı bir formatta oluşturuyorum.

Bu tür materyalleri oluşturmak için birkaç format kullanılabilir.

Başlangıçta, özellikle sunum oluşturmak için bir format olan Marp'ı denedim, ancak yetenekleri sınırlıydı. Bu yüzden, vektör grafikler için daha genel olan SVG formatını kullanmaya karar verdim.

SVG gibi metin tabanlı bir formatla, standart bir sohbet tabanlı üretken yapay zeka, "Lütfen bu blog yazısının içeriğini tanıtan sunum materyallerini SVG formatında oluşturun" gibi bir istekle yönlendirildiğinde materyalleri oluşturabilir.

Metin Taşması Sorunu

Buradaki sorun, metnin sıklıkla belgenin dış çerçevesinin veya belgedeki şekillerin çerçevelerinin dışına taşmasıdır.

Bir insan, tamamlanmış belgeyi görüntülerken metin taşmasını hemen fark eder. Ancak, bitmiş belgenin görsel denetimi yerine, SVG metin aşamasında metin taşmasını tespit etmek zordur.

Sonuç olarak, sohbet tabanlı üretken yapay zeka, sıklıkla metin taşması olan belgeler üretir.

Elbette, yapay zeka içeriğin çoğunu iyi oluşturur ve metin taşmasını manuel olarak düzeltebilirim. Ancak bu, her seferinde manuel bir adım getirecektir.

Bu nedenle, SVG belgeleri oluştururken metin taşmasını önleyici tedbirler almak ve oluşturulan SVG'de herhangi bir metin taşması olup olmadığını otomatik olarak tespit eden bir mekanizma geliştirmek gerekli hale geldi.

Metin taşmasını önlemek için, üretken yapay zekaya sunum materyalleri oluşturması talimatı verirken temel kurallar, çalışma prosedürleri ve uyarı notları sağlama yaklaşımını benimsedim.

Kural olarak, karmaşık şekiller kullanmamasını ve metnin yazı tipi boyutunu sabitlemesini talimat verdim.

Ayrıca, belgedeki bir cümlenin karakter sayısını sayma, bunu yazı tipi boyutuyla çarparak genişlik ve yüksekliği tahmin etme ve ardından metnin çerçeveyi veya şekilleri taşmadığını önceden doğrulama prosedürünü takip etmesini talimat verdim.

Bu süreçte, yapay zekaya kontrol edilen süreci ve sonuçları SVG dosyası içine ön kontrol yorumları olarak kaydetmesini talimat verdim.

Bu talimatları eklemek bazı iyileşmeler sağladı, ancak başlangıçtaki doğruluk tatmin edici değildi. Bu yüzden, tekrar tekrar çeşitli varyasyonlar oluşturdum, yaygın hata noktalarını talimatlara uyarı notları olarak ekledim ve kurallar ve talimatlar takip edilmiyorsa, bunları istem metni içinde tekrar tekrar vurguladım.

Deneme yanılma yoluyla yapılan bu istem iyileştirmelerini tekrarlayarak, metin taşması belirli bir ölçüde engellenebilir.

Ancak, tüm bu çabalara rağmen mükemmelliğe ulaşılamadığı için, daha sonraki bir aşamada bir kontrol uygulamaya karar verdim.

Bu üretim sonrası kontrol için, görüntüleri görsel olarak inceleyebilen bir üretken yapay zeka kullanmayı denedim, ancak metin taşmasını etkili bir şekilde tespit edemedi, bu yüzden bu yaklaşımdan vazgeçtim.

Ardından, başka bir yöntem denedim: SVG metnini bir sohbet tabanlı üretken yapay zekaya geri yükleyerek kontrol ettirme.

Bu yöntem, görsel denetim yapay zekasından daha iyi metin taşması tespit etti, ancak tespit doğruluğu yine de çok yüksek değildi. Burada da, taşmayı tespit etme talimatlarını yinelemeli olarak iyileştirerek belirli bir doğruluk seviyesine ulaşabildim, ancak mükemmel bir seviyeye ulaşamadım.

Bu nedenle, metin taşmasını daha titiz bir şekilde tespit etmek için bir program oluşturmaya karar verdim. Bu program, üretken yapay zekaya talimat verildiği gibi, sunum materyallerindeki cümlelerin uzunluğundan ve yazı tipi boyutundan genişlik ve yüksekliği hesaplayarak metnin belge çerçevesini veya iç şekilleri aşıp aşmadığını kontrol eder.

Bu programı oluşturmak zahmetliydi, ancak sonunda doğru tespit yapabilen bir hale geldi.

Metin taşması dışında, yapay zekanın karmaşık çizelgeler oluşturmaya çalıştığı ve bozuk çıktılar ürettiği durumlar da vardı. Bu tür yönler için, sohbet tabanlı üretken yapay zekanın bir kural ihlali kontrolü yapmasını sağlama yaklaşımını sürdürdüm.

Bu kontrol, yapay zekanın kurallarda tanımlanandan daha karmaşık şekiller oluşturup oluşturmadığını belirler ve bunları kabul edilemez olarak işaretler.

Bu programın taşma kontrolü ve üretken yapay zekanın kural ihlali kontrolü mekanizmasıyla sorunlar artık büyük ölçüde tespit edilebilmektedir.

Sonraki İşlemler

Bu kontroller sırasında bir red tespit edilirse, oluşturulan SVG formatındaki materyal atılır ve yeniden üretilir. Bunun nedeni, sorunlu alanları işaret etmenin ve düzeltmenin genellikle başka sorunlara yol açması ve nihayetinde daha fazla zaman almasıdır.

Metin taşması olmayan bir sunum materyali tamamlandığında, bir sonraki adım, bu materyali ve orijinal blog yazısını üretken yapay zekaya girerek anlatım metnini oluşturmaktır. Burada özel bir yaratıcılığa gerek kalmadı.

Daha sonra, anlatım metni, bir metin okuma üretken yapay zeka kullanılarak ses verisine dönüştürülür. Yine, bunun için özel tekniklere ihtiyaç duyulmadı.

Son olarak, SVG formatındaki sunum materyali PNG görüntülerine dönüştürülür ve ardından ffmpeg adlı bir araç kullanılarak sesli bir mp4 videosuna dönüştürülür. Bu, süreci tamamlar.

SVG formatında slaytların oluşturulmasından sonraki bir dizi işlem, üretken yapay zekaya danışılarak programlar yazılarak kolayca otomatikleştirilebilir.

Sonuç

Bu otomatik sunum videosu oluşturma sistemini başarıyla kurup geliştirdikten sonra, geçen hafta YouTube'da videolar yayınlamaya başladım.

Ancak, bu sistemin tamamlanmasından kısa bir süre sonra, Google'ın bir yapay zeka aracı olan NotebookLM de metin belgelerini açıklayan videoları otomatik olarak oluşturma benzer bir özelliğe kavuştu.

Bu nedenle, gelecekte yapay zeka hizmetleri sunan şirketlerin benzer hizmetleri piyasaya süreceği ve bireylerin bu tür sistemleri sıfırdan oluşturma ihtiyacını ortadan kaldıracağı tahmin edilmektedir.

Bununla birlikte, üretken yapay zekayı bu denli ciddi bir şekilde kullanan pratik bir program geliştirmek, üretken yapay zekayı etkili bir şekilde kullanmanın ana ilkelerini kavramamı sağlayan önemli bir başarı olmuştur.