https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV
Tôi đã phát triển một hệ thống sử dụng AI tạo sinh để tự động tạo video thuyết trình từ các bài viết trên blog và tải chúng lên YouTube.
Với một chút sáng tạo, AI tạo sinh không chỉ có thể nghĩ ra cốt truyện cho bài thuyết trình mà còn có thể tạo ra các tài liệu thuyết trình.
Hơn nữa, bằng cách yêu cầu AI tạo sinh viết kịch bản cho bài thuyết trình và sau đó yêu cầu một AI tạo sinh chuyển văn bản thành giọng nói đọc to kịch bản đó, dữ liệu âm thanh cũng có thể được tạo ra.
Việc kết hợp tài liệu thuyết trình và dữ liệu âm thanh sau đó sẽ tạo ra một video.
Bằng cách tự động hóa chuỗi tác vụ này, tôi đã có thể tự động tạo video thuyết trình chỉ với một cú nhấp chuột.
Cơ chế
Phần quan trọng nhất của quy trình là việc tạo ra tài liệu thuyết trình.
AI tạo sinh xuất sắc trong việc tạo hình ảnh, nhưng điều này thường chỉ giới hạn ở ảnh chụp hoặc tranh vẽ. Việc tạo các tài liệu tập trung vào văn bản và hình ảnh, như tài liệu thuyết trình, là một thách thức đối với các AI tạo hình ảnh.
Do đó, tôi tạo các tài liệu tập trung vào văn bản và hình ảnh dưới định dạng dựa trên văn bản, tương tự như một ngôn ngữ lập trình.
Có một số định dạng có thể được sử dụng để tạo các tài liệu như vậy.
Ban đầu, tôi đã thử Marp, một định dạng dành riêng cho việc tạo bài thuyết trình, nhưng khả năng của nó bị hạn chế. Vì vậy, tôi quyết định sử dụng định dạng SVG phổ biến hơn, dành cho đồ họa vector.
Với định dạng dựa trên văn bản như SVG, một AI tạo sinh dựa trên trò chuyện tiêu chuẩn có thể tạo ra tài liệu nếu được nhắc bằng một yêu cầu như: "Vui lòng tạo tài liệu thuyết trình dưới định dạng SVG giới thiệu nội dung của bài viết blog này."
Vấn đề tràn văn bản
Vấn đề ở đây là văn bản thường xuyên vượt ra ngoài khung bên ngoài của tài liệu hoặc khung của các hình trong tài liệu.
Con người sẽ ngay lập tức nhận thấy lỗi tràn văn bản khi xem tài liệu đã hoàn thành. Tuy nhiên, việc phát hiện lỗi tràn văn bản ở giai đoạn văn bản SVG, thay vì thông qua kiểm tra trực quan tài liệu hoàn chỉnh, là rất khó.
Do đó, AI tạo sinh dựa trên trò chuyện thường tạo ra các tài liệu với lỗi tràn văn bản thường xuyên.
Tất nhiên, AI tạo ra hầu hết nội dung tốt, và tôi có thể chỉ cần sửa lỗi tràn văn bản thủ công. Tuy nhiên, điều này sẽ đưa vào một bước thủ công mỗi lần.
Vì vậy, việc kết hợp các biện pháp ngăn chặn tràn văn bản khi tạo tài liệu SVG và phát triển một cơ chế tự động phát hiện xem có bất kỳ lỗi tràn văn bản nào trong SVG được tạo ra hay không đã trở nên cần thiết.
Để ngăn chặn lỗi tràn văn bản, tôi đã áp dụng phương pháp cung cấp cho AI tạo sinh các quy tắc cơ bản, quy trình vận hành và ghi chú cảnh báo khi hướng dẫn nó tạo tài liệu thuyết trình.
Theo các quy tắc, tôi đã hướng dẫn nó không sử dụng các hình phức tạp và cố định kích thước phông chữ của văn bản.
Hơn nữa, tôi đã hướng dẫn nó tuân theo một quy trình đếm số ký tự trong một câu trong tài liệu, nhân với kích thước phông chữ để ước tính chiều rộng và chiều cao, và sau đó xác nhận trước rằng văn bản không tràn khung hoặc hình ảnh.
Trong quá trình này, tôi đã hướng dẫn AI ghi lại quá trình kiểm tra và kết quả dưới dạng bình luận tiền kiểm tra trong tệp SVG.
Việc thêm các hướng dẫn này đã mang lại một số cải thiện, nhưng độ chính xác ban đầu không đạt yêu cầu. Vì vậy, tôi đã liên tục tạo ra nhiều biến thể, thêm các điểm lỗi phổ biến dưới dạng ghi chú cảnh báo vào các hướng dẫn, và nhấn mạnh các quy tắc và hướng dẫn nhiều lần trong văn bản nhắc nhở nếu chúng không được tuân thủ.
Bằng cách lặp lại các cải tiến nhắc nhở này thông qua thử và sai, lỗi tràn văn bản có thể được giảm thiểu ở một mức độ nhất định.
Tuy nhiên, ngay cả với tất cả những nỗ lực này, sự hoàn hảo là không thể đạt được, vì vậy tôi đã quyết định triển khai một bước kiểm tra ở giai đoạn sau.
Đối với kiểm tra sau tạo này, tôi đã thử sử dụng một AI tạo sinh có khả năng kiểm tra hình ảnh trực quan, nhưng nó không thể phát hiện lỗi tràn văn bản hiệu quả, vì vậy tôi đã từ bỏ cách tiếp cận đó.
Tiếp theo, tôi đã thử một phương pháp khác: nhập văn bản SVG trở lại vào một AI tạo sinh dựa trên trò chuyện để kiểm tra.
Phương pháp này tốt hơn trong việc phát hiện lỗi tràn văn bản so với AI kiểm tra trực quan, nhưng độ chính xác phát hiện của nó vẫn không cao lắm. Ở đây, một lần nữa, bằng cách cải thiện lặp đi lặp lại các hướng dẫn để phát hiện lỗi tràn, tôi có thể đạt được một mức độ chính xác nhất định, nhưng không phải là hoàn hảo.
Do đó, tôi quyết định tạo một chương trình để phát hiện lỗi tràn văn bản một cách nghiêm ngặt hơn. Chương trình này kiểm tra xem văn bản có tràn khung tài liệu hoặc các hình ảnh bên trong hay không bằng cách tính toán chiều rộng và chiều cao từ độ dài của câu và kích thước phông chữ trong tài liệu thuyết trình, như đã hướng dẫn cho AI tạo sinh.
Việc tạo chương trình này rất khó khăn, nhưng cuối cùng nó đã có thể phát hiện chính xác.
Ngoài lỗi tràn văn bản, cũng có những trường hợp AI cố gắng tạo biểu đồ phức tạp và tạo ra các kết quả đầu ra bị méo mó. Đối với những khía cạnh như vậy, tôi đã giữ lại cách tiếp cận yêu cầu AI tạo sinh dựa trên trò chuyện thực hiện kiểm tra vi phạm quy tắc.
Kiểm tra này xác định xem AI có tạo ra các hình ảnh phức tạp hơn so với định nghĩa trong các quy tắc hay không, đánh dấu chúng là không chấp nhận được.
Với chương trình kiểm tra tràn này và AI tạo sinh để kiểm tra vi phạm quy tắc, các vấn đề giờ đây có thể được phát hiện phần lớn.
Xử lý tiếp theo
Nếu phát hiện lỗi trong quá trình kiểm tra, tài liệu định dạng SVG đã tạo sẽ bị loại bỏ và tạo lại. Điều này là do việc chỉ ra và sửa chữa các khu vực có vấn đề thường dẫn đến các vấn đề khác, cuối cùng tốn nhiều thời gian hơn.
Khi tài liệu thuyết trình không bị tràn văn bản hoàn tất, bước tiếp theo là đưa tài liệu này và bài viết blog gốc cho AI tạo sinh để tạo kịch bản tường thuật. Không cần có sự khéo léo đặc biệt nào ở đây.
Sau đó, kịch bản tường thuật được chuyển đổi thành dữ liệu âm thanh bằng cách sử dụng AI tạo sinh chuyển văn bản thành giọng nói. Một lần nữa, không cần kỹ thuật đặc biệt nào cho việc này.
Cuối cùng, tài liệu thuyết trình định dạng SVG được chuyển đổi thành hình ảnh PNG, và sau đó, sử dụng một công cụ có tên ffmpeg, nó được chuyển đổi thành video mp4 có âm thanh. Quá trình này hoàn tất.
Loạt quy trình tiếp theo sau khi tạo các slide định dạng SVG có thể dễ dàng được tự động hóa bằng cách viết chương trình trong khi tham khảo ý kiến của AI tạo sinh.
Kết luận
Sau khi tự mình xây dựng và tinh chỉnh thành công hệ thống tạo video thuyết trình tự động này, tôi đã bắt đầu đăng tải video lên YouTube vào tuần trước.
Tuy nhiên, ngay sau khi hệ thống này hoàn thành, NotebookLM của Google, một công cụ AI, cũng đã có thêm tính năng tương tự để tự động tạo video giải thích tài liệu văn bản.
Do đó, dự kiến trong tương lai, các công ty cung cấp dịch vụ AI sẽ phát hành các dịch vụ tương tự, loại bỏ nhu cầu cá nhân phải xây dựng các hệ thống như vậy từ đầu.
Tuy nhiên, việc phát triển một chương trình thực tiễn tận dụng AI tạo sinh một cách nghiêm túc như vậy đã là một thành tựu đáng kể, giúp tôi nắm bắt được những nguyên tắc chính để sử dụng AI tạo sinh một cách hiệu quả.