https://youtu.be/vmt_WVBJMj4?si=OZlzEqfEvWjPakYV
బ్లాగ్ కథనాలనుండి, జనరేటివ్ AIని ఉపయోగించి ప్రెజెంటేషన్ వీడియోలను స్వయంచాలకంగా సృష్టించి YouTubeకి అప్లోడ్ చేసే వ్యవస్థను నేను అభివృద్ధి చేశాను.
కొంత నేర్పుతో, జనరేటివ్ AI ప్రెజెంటేషన్ యొక్క కథాంశాన్ని రూపొందించడమే కాకుండా, ప్రెజెంటేషన్ మెటీరియల్లను కూడా సృష్టించగలదు.
అంతేకాకుండా, జనరేటివ్ AIతో ప్రెజెంటేషన్ కోసం ఒక స్క్రిప్ట్ను సృష్టించి, ఆ స్క్రిప్ట్ను టెక్స్ట్-టు-స్పీచ్ జనరేటివ్ AI ద్వారా చదివించడం ద్వారా, ఆడియో డేటాను కూడా ఉత్పత్తి చేయవచ్చు.
ప్రెజెంటేషన్ మెటీరియల్లు మరియు ఆడియో డేటాను కలిపినప్పుడు ఒక వీడియో రూపొందుతుంది.
ఈ పనుల శ్రేణిని స్వయంచాలకం చేయడం ద్వారా, నేను ఒకే క్లిక్తో ప్రెజెంటేషన్ వీడియోలను స్వయంచాలకంగా రూపొందించడం సాధ్యం చేశాను.
విధానం
ఈ ప్రక్రియలో అత్యంత కీలకమైన భాగం ప్రెజెంటేషన్ మెటీరియల్లను రూపొందించడం.
జనరేటివ్ AI చిత్రాలను రూపొందించడంలో రాణిస్తుంది, కానీ ఇది సాధారణంగా ఛాయాచిత్రాలు లేదా డ్రాయింగ్లకు మాత్రమే పరిమితం. ప్రెజెంటేషన్ మెటీరియల్ల వలె టెక్స్ట్ మరియు చిత్రాలపై కేంద్రీకృతమైన పత్రాలను రూపొందించడం ఇమేజ్-జనరేటింగ్ AIలకు సవాలుతో కూడుకున్న పని.
అందువల్ల, నేను టెక్స్ట్ మరియు చిత్రాలపై ఆధారపడిన మెటీరియల్లను ప్రోగ్రామింగ్ లాంగ్వేజ్ మాదిరిగానే టెక్స్ట్-ఆధారిత ఫార్మాట్లో రూపొందిస్తాను.
ఇటువంటి మెటీరియల్లను సృష్టించడానికి అనేక ఫార్మాట్లు ఉపయోగించవచ్చు.
మొదట్లో, నేను ప్రత్యేకంగా ప్రెజెంటేషన్ సృష్టి కోసం రూపొందించిన మార్ప్ను ప్రయత్నించాను, కానీ దాని సామర్థ్యాలు పరిమితం. కాబట్టి, వెక్టర్ గ్రాఫిక్స్ కోసం మరింత సాధారణ SVG ఫార్మాట్ను ఉపయోగించాలని నిర్ణయించుకున్నాను.
SVG వంటి టెక్స్ట్-ఆధారిత ఫార్మాట్తో, "ఈ బ్లాగ్ కథనంలోని కంటెంట్ను పరిచయం చేస్తూ SVG ఫార్మాట్లో ప్రెజెంటేషన్ మెటీరియల్లను సృష్టించండి" వంటి అభ్యర్థనతో ప్రాంప్ట్ చేయబడితే, ఒక ప్రామాణిక చాట్-ఆధారిత జనరేటివ్ AI మెటీరియల్లను సృష్టించగలదు.
టెక్స్ట్ ఓవర్ఫ్లో సమస్య
ఇక్కడ సమస్య ఏమిటంటే, పత్రం యొక్క బయటి ఫ్రేమ్ లేదా పత్రంలోని చిత్రాల ఫ్రేమ్ల వెలుపల టెక్స్ట్ తరచుగా విస్తరించి ఉంటుంది.
ఒక మానవుడు పూర్తయిన పత్రాన్ని చూసినప్పుడు టెక్స్ట్ ఓవర్ఫ్లోను వెంటనే గమనిస్తాడు. అయితే, పూర్తయిన పత్రాన్ని దృశ్యమానంగా పరిశీలించడం ద్వారా కాకుండా, SVG టెక్స్ట్ దశలో టెక్స్ట్ ఓవర్ఫ్లోను గుర్తించడం కష్టం.
తత్ఫలితంగా, చాట్-ఆధారిత జనరేటివ్ AI తరచుగా టెక్స్ట్ ఓవర్ఫ్లోతో కూడిన పత్రాలను ఉత్పత్తి చేస్తుంది.
ఖచ్చితంగా, AI చాలా కంటెంట్ను బాగా ఉత్పత్తి చేస్తుంది, మరియు నేను టెక్స్ట్ ఓవర్ఫ్లోను మానవీయంగా సరిచేయగలను. అయితే, ఇది ప్రతిసారీ మాన్యువల్ దశను ప్రవేశపెడుతుంది.
అందువల్ల, SVG పత్రాలను రూపొందించేటప్పుడు టెక్స్ట్ ఓవర్ఫ్లోను నిరోధించడానికి చర్యలను చేర్చడం మరియు రూపొందించిన SVGలో ఏదైనా టెక్స్ట్ ఓవర్ఫ్లో ఉందో లేదో స్వయంచాలకంగా గుర్తించడానికి ఒక యంత్రాంగాన్ని అభివృద్ధి చేయడం అవసరం అయ్యింది.
టెక్స్ట్ ఓవర్ఫ్లోను నిరోధించడానికి, ప్రెజెంటేషన్ మెటీరియల్లను సృష్టించమని జనరేటివ్ AIకి సూచించినప్పుడు ప్రాథమిక నియమాలు, ఆపరేటింగ్ విధానాలు మరియు జాగ్రత్త గమనికలను అందించే విధానాన్ని నేను అనుసరించాను.
నియమాలుగా, సంక్లిష్ట చిత్రాలను ఉపయోగించవద్దని మరియు టెక్స్ట్ యొక్క ఫాంట్ పరిమాణాన్ని స్థిరంగా ఉంచమని నేను ఆదేశించాను.
అంతేకాకుండా, పత్రంలోని వాక్యంలో అక్షరాల సంఖ్యను లెక్కించడం, దానిని ఫాంట్ పరిమాణంతో గుణించి వెడల్పు మరియు ఎత్తును అంచనా వేయడం, ఆపై టెక్స్ట్ ఫ్రేమ్ లేదా చిత్రాలను ఓవర్ఫ్లో చేయదని ముందుగా నిర్ధారించుకోవడం వంటి విధానాన్ని అనుసరించమని నేను ఆదేశించాను.
ఈ ప్రక్రియలో, తనిఖీ చేసిన ప్రక్రియ మరియు ఫలితాలను SVG ఫైల్లో ముందు-తనిఖీ వ్యాఖ్యలుగా రికార్డ్ చేయమని నేను AIకి ఆదేశించాను.
ఈ సూచనలను జోడించడం వల్ల కొంత మెరుగుదల వచ్చింది, కానీ ప్రారంభ ఖచ్చితత్వం సంతృప్తికరంగా లేదు. కాబట్టి, నేను పదేపదే అనేక వైవిధ్యాలను రూపొందించాను, సాధారణ లోపాలను సూచనలకు జాగ్రత్త గమనికలుగా జోడించాను మరియు నియమాలు మరియు సూచనలు పాటించకపోతే ప్రాంప్ట్ టెక్స్ట్లో పదేపదే నొక్కి చెప్పాను.
ప్రయత్నపూర్వక ఈ ప్రాంప్ట్ మెరుగుదలలను పునరావృతం చేయడం ద్వారా, టెక్స్ట్ ఓవర్ఫ్లోను కొంతవరకు అణచివేయవచ్చు.
అయితే, ఈ ప్రయత్నాలన్నింటితో కూడా, పరిపూర్ణత సాధించడం అసాధ్యం, కాబట్టి నేను తరువాత దశలో ఒక తనిఖీని అమలు చేయాలని నిర్ణయించుకున్నాను.
ఈ పోస్ట్-జనరేషన్ తనిఖీ కోసం, చిత్రాలను దృశ్యమానంగా పరిశీలించగల జనరేటివ్ AIని ఉపయోగించడానికి ప్రయత్నించాను, కానీ అది టెక్స్ట్ ఓవర్ఫ్లోను సమర్థవంతంగా గుర్తించలేకపోయింది, కాబట్టి నేను ఆ విధానాన్ని వదిలిపెట్టాను.
తరువాత, నేను మరొక పద్ధతిని ప్రయత్నించాను: తనిఖీ కోసం SVG టెక్స్ట్ను తిరిగి చాట్-ఆధారిత జనరేటివ్ AIలోకి ఇన్పుట్ చేయడం.
దృశ్యమాన తనిఖీ AI కంటే టెక్స్ట్ ఓవర్ఫ్లోను గుర్తించడంలో ఈ పద్ధతి మెరుగ్గా ఉంది, కానీ దాని గుర్తింపు ఖచ్చితత్వం ఇప్పటికీ చాలా ఎక్కువగా లేదు. ఇక్కడ మళ్ళీ, ఓవర్ఫ్లోను గుర్తించడానికి సూచనలను పునరావృతంగా మెరుగుపరచడం ద్వారా, నేను ఒక నిర్దిష్ట స్థాయి ఖచ్చితత్వాన్ని సాధించగలను, కానీ పరిపూర్ణమైనది కాదు.
అందువల్ల, టెక్స్ట్ ఓవర్ఫ్లోను మరింత కఠినంగా గుర్తించడానికి ఒక ప్రోగ్రామ్ను సృష్టించాలని నేను నిర్ణయించుకున్నాను. ఈ ప్రోగ్రామ్ ప్రెజెంటేషన్ మెటీరియల్లలోని వాక్యాల పొడవు మరియు ఫాంట్ పరిమాణం నుండి వెడల్పు మరియు ఎత్తును లెక్కించడం ద్వారా టెక్స్ట్ పత్రం ఫ్రేమ్ లేదా అంతర్గత చిత్రాలను ఓవర్ఫ్లో చేస్తుందో లేదో తనిఖీ చేస్తుంది, జనరేటివ్ AIకి సూచించినట్లుగా.
ఈ ప్రోగ్రామ్ను సృష్టించడం శ్రమతో కూడుకున్నది, కానీ అది చివరికి ఖచ్చితమైన గుర్తింపు సామర్థ్యాన్ని పొందింది.
టెక్స్ట్ ఓవర్ఫ్లోతో పాటు, AI సంక్లిష్ట చార్ట్లను సృష్టించడానికి ప్రయత్నించినప్పుడు వక్రీకరించిన అవుట్పుట్లను ఉత్పత్తి చేసిన సందర్భాలు కూడా ఉన్నాయి. అటువంటి అంశాల కోసం, చాట్-ఆధారిత జనరేటివ్ AIని నియమ ఉల్లంఘన తనిఖీ చేయమని నేను అభ్యర్థించాను.
ఈ తనిఖీ నియమాలలో నిర్వచించిన దానికంటే సంక్లిష్టమైన చిత్రాలను AI సృష్టించిందో లేదో నిర్ణయిస్తుంది, వాటిని ఆమోదయోగ్యం కానివిగా గుర్తించడం.
ఓవర్ఫ్లో తనిఖీ కోసం ఈ ప్రోగ్రామ్తో మరియు నియమ ఉల్లంఘన తనిఖీ కోసం జనరేటివ్ AIతో, సమస్యలను ఇప్పుడు చాలావరకు గుర్తించవచ్చు.
తదుపరి ప్రాసెసింగ్
ఈ తనిఖీలలో తిరస్కరణ కనుగొనబడితే, రూపొందించబడిన SVG-ఫార్మాట్ మెటీరియల్ విస్మరించబడుతుంది మరియు తిరిగి రూపొందించబడుతుంది. ఎందుకంటే సమస్య ఉన్న ప్రాంతాలను గుర్తించడం మరియు సరిదిద్దడం తరచుగా ఇతర సమస్యలకు దారితీస్తుంది, చివరికి ఎక్కువ సమయం పడుతుంది.
టెక్స్ట్ ఓవర్ఫ్లో లేని ప్రెజెంటేషన్ మెటీరియల్ పూర్తయిన తర్వాత, తదుపరి దశ ఈ మెటీరియల్ను మరియు అసలు బ్లాగ్ కథనాన్ని జనరేటివ్ AIకి ఇన్పుట్గా ఇచ్చి వ్యాఖ్యాన స్క్రిప్ట్ను సృష్టించడం. ఇక్కడ ప్రత్యేకమైన చాతుర్యం అవసరం లేదు.
అప్పుడు, వ్యాఖ్యాన స్క్రిప్ట్ టెక్స్ట్-టు-స్పీచ్ జనరేటివ్ AIని ఉపయోగించి ఆడియో డేటాగా మార్చబడుతుంది. ఇక్కడ కూడా ప్రత్యేక పద్ధతులు అవసరం లేదు.
చివరగా, SVG-ఫార్మాట్ ప్రెజెంటేషన్ మెటీరియల్ PNG చిత్రాలుగా మార్చబడుతుంది, ఆపై, ffmpeg అనే సాధనాన్ని ఉపయోగించి, ఆడియోతో కూడిన mp4 వీడియోగా మార్చబడుతుంది. దీంతో ప్రక్రియ పూర్తవుతుంది.
SVG-ఫార్మాట్ స్లైడ్ల సృష్టిని అనుసరించి జరిగే ప్రక్రియల శ్రేణిని జనరేటివ్ AIతో సంప్రదిస్తూ ప్రోగ్రామ్లు రాయడం ద్వారా సులభంగా ఆటోమేట్ చేయవచ్చు.
ముగింపు
ఈ స్వయంచాలక ప్రెజెంటేషన్ వీడియో ఉత్పత్తి వ్యవస్థను విజయవంతంగా నిర్మించి, మెరుగుపరచిన తర్వాత, నేను గత వారం YouTubeలో వీడియోలను ప్రచురించడం ప్రారంభించాను.
అయితే, ఈ వ్యవస్థ పూర్తయిన కొద్దిసేపటికే, Google యొక్క NotebookLM, ఒక AI సాధనం, టెక్స్ట్ డాక్యుమెంట్లను వివరించడానికి స్వయంచాలకంగా వీడియోలను రూపొందించే ఇలాంటి ఫీచర్ను కూడా పొందింది.
అందువల్ల, భవిష్యత్తులో, AI సేవలను అందించే కంపెనీలు ఇలాంటి సేవలను విడుదల చేస్తాయని అంచనా వేయబడింది, తద్వారా వ్యక్తులు అలాంటి వ్యవస్థలను మొదటి నుండి నిర్మించాల్సిన అవసరం ఉండదు.
అయినప్పటికీ, జనరేటివ్ AIని ఇంత తీవ్రమైన పద్ధతిలో ఉపయోగించి ఒక ఆచరణాత్మక ప్రోగ్రామ్ను అభివృద్ధి చేయడం ఒక ముఖ్యమైన విజయం, ఇది జనరేటివ్ AIని సమర్థవంతంగా ఉపయోగించడంలో కీలక సూత్రాలను గ్రహించడానికి నాకు సహాయపడింది.