การสร้างวิดีโอพรีเซ็นเตชันอัตโนมัติจากบทความบล็อก

https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV

ผมได้พัฒนาระบบที่ใช้ AI เชิงสร้างสรรค์ (generative AI) ในการสร้างวิดีโอพรีเซ็นเตชันจากบทความบล็อกโดยอัตโนมัติ และอัปโหลดไปยัง YouTube

ด้วยความเฉลียวฉลาดบางอย่าง AI เชิงสร้างสรรค์ไม่เพียงแต่สามารถคิดโครงเรื่องสำหรับการนำเสนอได้เท่านั้น แต่ยังสามารถสร้างสื่อนำเสนอได้อีกด้วย

นอกจากนี้ การให้ AI เชิงสร้างสรรค์สร้างสคริปต์สำหรับการนำเสนอ แล้วให้ AI เชิงสร้างสรรค์แบบแปลงข้อความเป็นคำพูด (text-to-speech generative AI) อ่านสคริปต์นั้นออกเสียง ก็สามารถสร้างข้อมูลเสียงได้

เมื่อนำสื่อนำเสนอและข้อมูลเสียงมารวมกัน ก็จะได้เป็นวิดีโอ

ด้วยการทำให้ชุดงานเหล่านี้เป็นไปโดยอัตโนมัติ ผมจึงสามารถสร้างวิดีโอพรีเซ็นเตชันได้โดยอัตโนมัติด้วยการคลิกเพียงครั้งเดียว

กลไกการทำงาน

ส่วนที่สำคัญที่สุดของกระบวนการนี้คือการสร้างสื่อนำเสนอ

AI เชิงสร้างสรรค์มีความสามารถโดดเด่นในการสร้างภาพ แต่โดยทั่วไปแล้วจะจำกัดอยู่แค่ภาพถ่ายหรือภาพวาด การสร้างเอกสารที่เน้นข้อความและรูปภาพ เช่น สื่อนำเสนอ เป็นเรื่องที่ท้าทายสำหรับ AI ที่สร้างภาพ

ดังนั้น ผมจึงสร้างสื่อที่เน้นข้อความและรูปภาพในรูปแบบข้อความ คล้ายกับภาษาโปรแกรม

มีหลายรูปแบบที่สามารถใช้สร้างสื่อดังกล่าวได้

ในตอนแรก ผมลองใช้ Marp ซึ่งเป็นรูปแบบเฉพาะสำหรับการสร้างพรีเซ็นเตชัน แต่ความสามารถของมันมีจำกัด จึงตัดสินใจใช้รูปแบบ SVG ซึ่งเป็นรูปแบบทั่วไปสำหรับกราฟิกแบบเวกเตอร์

ด้วยรูปแบบที่ใช้ข้อความอย่าง SVG, AI เชิงสร้างสรรค์แบบแชทมาตรฐานสามารถสร้างสื่อได้ หากได้รับคำสั่งเช่น "โปรดสร้างสื่อนำเสนอในรูปแบบ SVG ที่แนะนำเนื้อหาของบทความบล็อกนี้"

ปัญหาข้อความล้น

ปัญหาที่พบคือข้อความมักจะล้นออกไปนอกกรอบเอกสารหรือกรอบของรูปภาพภายในเอกสาร

มนุษย์จะสังเกตเห็นข้อความล้นได้ทันทีเมื่อดูเอกสารที่สร้างเสร็จแล้ว อย่างไรก็ตาม การตรวจจับข้อความล้นในขั้นตอนของข้อความ SVG แทนที่จะเป็นการตรวจสอบด้วยสายตาของเอกสารที่เสร็จสมบูรณ์นั้นเป็นเรื่องยาก

ดังนั้น AI เชิงสร้างสรรค์แบบแชทมักจะสร้างเอกสารที่มีข้อความล้นบ่อยครั้ง

แน่นอนว่า AI สร้างเนื้อหาส่วนใหญ่ได้ดี และผมก็สามารถแก้ไขข้อความล้นได้ด้วยตนเอง แต่สิ่งนี้จะทำให้มีขั้นตอนที่ต้องทำด้วยตนเองทุกครั้ง

ด้วยเหตุนี้ จึงจำเป็นต้องรวมมาตรการป้องกันข้อความล้นเมื่อสร้างเอกสาร SVG และพัฒนากลไกเพื่อตรวจจับโดยอัตโนมัติว่ามีข้อความล้นอยู่ใน SVG ที่สร้างขึ้นหรือไม่

เพื่อป้องกันข้อความล้น ผมใช้วิธีการให้ AI เชิงสร้างสรรค์พร้อมด้วยกฎพื้นฐาน ขั้นตอนการทำงาน และข้อควรระวัง เมื่อสั่งให้สร้างสื่อนำเสนอ

ในส่วนของกฎ ผมสั่งให้ AI ไม่ใช้รูปภาพที่ซับซ้อนและกำหนดขนาดตัวอักษรให้คงที่

นอกจากนี้ ผมยังสั่งให้ปฏิบัติตามขั้นตอนการนับจำนวนตัวอักษรในประโยคภายในเอกสาร คูณด้วยขนาดตัวอักษรเพื่อประมาณความกว้างและความสูง จากนั้นยืนยันล่วงหน้าว่าข้อความไม่ล้นกรอบหรือรูปภาพ

ในระหว่างกระบวนการนี้ ผมสั่งให้ AI บันทึกกระบวนการที่ตรวจสอบและผลลัพธ์เป็นความคิดเห็นก่อนการตรวจสอบ (pre-check comments) ภายในไฟล์ SVG

การเพิ่มคำแนะนำเหล่านี้ช่วยให้มีการปรับปรุงบางอย่าง แต่ความแม่นยำเริ่มต้นยังไม่เป็นที่น่าพอใจ ดังนั้น ผมจึงสร้างหลายรูปแบบซ้ำๆ เพิ่มจุดที่มักเกิดข้อผิดพลาดเป็นข้อควรระวังในคำแนะนำ และเน้นย้ำกฎและคำแนะนำซ้ำๆ ภายในข้อความคำสั่ง หากไม่ปฏิบัติตาม

ด้วยการปรับปรุงคำสั่งเหล่านี้ซ้ำๆ ผ่านการลองผิดลองถูก ข้อความล้นสามารถลดลงได้ในระดับหนึ่ง

อย่างไรก็ตาม แม้จะพยายามอย่างเต็มที่แล้ว ความสมบูรณ์แบบก็ยังไม่สามารถทำได้ ผมจึงตัดสินใจนำการตรวจสอบไปใช้ในขั้นตอนถัดไป

สำหรับการตรวจสอบหลังการสร้างนี้ ผมลองใช้ AI เชิงสร้างสรรค์ที่สามารถตรวจสอบภาพด้วยสายตาได้ แต่มันไม่สามารถตรวจจับข้อความล้นได้อย่างมีประสิทธิภาพ ผมจึงเลิกใช้วิธีการนั้น

จากนั้น ผมลองใช้วิธีอื่น: ป้อนข้อความ SVG กลับเข้าไปใน AI เชิงสร้างสรรค์แบบแชทเพื่อตรวจสอบ

วิธีนี้ตรวจจับข้อความล้นได้ดีกว่า AI ตรวจสอบภาพด้วยสายตา แต่ความแม่นยำในการตรวจจับก็ยังไม่สูงมากนัก ในกรณีนี้อีกครั้ง ด้วยการปรับปรุงคำแนะนำสำหรับการตรวจจับข้อความล้นซ้ำๆ ผมก็สามารถบรรลุระดับความแม่นยำได้ระดับหนึ่ง แต่ไม่ถึงระดับที่สมบูรณ์แบบ

ดังนั้น ผมจึงตัดสินใจสร้างโปรแกรมเพื่อตรวจจับข้อความล้นอย่างเคร่งครัดยิ่งขึ้น โปรแกรมนี้จะตรวจสอบว่าข้อความล้นกรอบเอกสารหรือรูปภาพภายในหรือไม่ โดยการคำนวณความกว้างและความสูงจากความยาวของประโยคและขนาดตัวอักษรในสื่อนำเสนอ ตามที่สั่งให้ AI เชิงสร้างสรรค์ทำ

การสร้างโปรแกรมนี้เป็นเรื่องที่ต้องใช้ความพยายามอย่างมาก แต่ท้ายที่สุดก็สามารถตรวจจับได้อย่างแม่นยำ

นอกเหนือจากข้อความล้นแล้ว ยังมีบางกรณีที่ AI พยายามสร้างแผนภูมิที่ซับซ้อนและสร้างผลลัพธ์ที่บิดเบี้ยว สำหรับประเด็นดังกล่าว ผมยังคงใช้วิธีการให้ AI เชิงสร้างสรรค์แบบแชททำการตรวจสอบการละเมิดกฎ (rule violation check)

การตรวจสอบนี้จะพิจารณาว่า AI สร้างรูปภาพที่ซับซ้อนเกินกว่าที่กำหนดไว้ในกฎหรือไม่ โดยจะทำเครื่องหมายว่าไม่เป็นที่ยอมรับ

ด้วยโปรแกรมนี้สำหรับการตรวจสอบข้อความล้นและ AI เชิงสร้างสรรค์สำหรับการตรวจสอบการละเมิดกฎ ปัญหาต่างๆ จึงสามารถตรวจจับได้เป็นส่วนใหญ่

การประมวลผลภายหลัง

หากตรวจพบการปฏิเสธในระหว่างการตรวจสอบเหล่านี้ สื่อรูปแบบ SVG ที่สร้างขึ้นจะถูกละทิ้งและสร้างใหม่ เนื่องจากชี้ให้เห็นและแก้ไขจุดที่มีปัญหามักจะนำไปสู่ปัญหาอื่น ๆ ซึ่งท้ายที่สุดแล้วจะใช้เวลานานขึ้น

เมื่อสื่อนำเสนอที่ไม่มีข้อความล้นเสร็จสมบูรณ์ ขั้นตอนต่อไปคือนำสื่อนี้และบทความบล็อกต้นฉบับไปป้อนให้ AI เชิงสร้างสรรค์เพื่อสร้างสคริปต์บรรยาย ในขั้นตอนนี้ไม่จำเป็นต้องใช้ความเฉลียวฉลาดเป็นพิเศษ

จากนั้น สคริปต์บรรยายจะถูกแปลงเป็นข้อมูลเสียงโดยใช้ AI เชิงสร้างสรรค์แบบแปลงข้อความเป็นคำพูด (text-to-speech generative AI) อีกครั้งที่ขั้นตอนนี้ไม่จำเป็นต้องใช้เทคนิคพิเศษใดๆ

สุดท้าย สื่อนำเสนอรูปแบบ SVG จะถูกแปลงเป็นภาพ PNG จากนั้นใช้เครื่องมือที่เรียกว่า ffmpeg แปลงเป็นวิดีโอรูปแบบ mp4 พร้อมเสียง ซึ่งถือเป็นการเสร็จสิ้นกระบวนการ

ชุดกระบวนการหลังจากการสร้างสไลด์รูปแบบ SVG สามารถทำได้โดยอัตโนมัติอย่างง่ายดายโดยการเขียนโปรแกรมในขณะที่ปรึกษากับ AI เชิงสร้างสรรค์

บทสรุป

หลังจากที่ผมได้สร้างและปรับปรุงระบบการสร้างวิดีโอพรีเซ็นเตชันอัตโนมัติด้วยตนเองจนสำเร็จ ผมก็เริ่มเผยแพร่วิดีโอลงบน YouTube เมื่อสัปดาห์ที่แล้ว

อย่างไรก็ตาม หลังจากระบบนี้สร้างเสร็จไม่นาน NotebookLM ของ Google ซึ่งเป็นเครื่องมือ AI ก็ได้เพิ่มฟังก์ชันที่คล้ายกันสำหรับการสร้างวิดีโอเพื่ออธิบายเอกสารข้อความโดยอัตโนมัติ

ดังนั้น จึงคาดการณ์ได้ว่าในอนาคต บริษัทที่ให้บริการ AI จะออกบริการที่คล้ายกัน ซึ่งจะทำให้บุคคลไม่จำเป็นต้องสร้างระบบดังกล่าวตั้งแต่เริ่มต้น

ถึงกระนั้น การพัฒนาระบบที่ใช้งานได้จริงโดยใช้ AI เชิงสร้างสรรค์อย่างจริงจังเช่นนี้ ถือเป็นความสำเร็จที่สำคัญ ซึ่งทำให้ผมเข้าใจหลักการสำคัญของการใช้ AI เชิงสร้างสรรค์ได้อย่างมีประสิทธิภาพ

การสร้างวิดีโอพรีเซ็นเตชันอัตโนมัติจากบทความบล็อก

กลไกการทำงาน

ปัญหาข้อความล้น

การประมวลผลภายหลัง

บทสรุป

หมวดหมู่

แท็ก

บทความที่เกี่ยวข้อง

สู่ยุคที่ไร้กำแพง: การสร้างเว็บไซต์บล็อก 30 ภาษา

การแนะนำซอฟต์แวร์เชิงกระบวนการทางธุรกิจ

การประสานปัญญาเสมือน

กลไกความใส่ใจในฐานะปัญญาเสมือนไมโคร

GitHub ในฐานะเหมืองทางปัญญา

ชะตากรรมของการคิด: AI และมนุษยชาติ

ประสบการณ์และพฤติกรรม

การเรียนรู้ที่จะเรียนรู้: ปัญญาโดยกำเนิด