मैंने तीन AI को अपने वीडियो देखने को कहा ताकि आपको न करना पड़े - एक ने सच में ध्यान दिया

एक परीक्षण में, Gemini ने वीडियो को प्रभावशाली ढंग से समझा, ChatGPT को Codex की मदद लेनी पड़ी, और Claude ने $100 प्रति माह पर भी वीडियो देखने से इनकार कर दिया।

ईमानदारी से कहें तो: हममें से ज़्यादातर लोगों के पास अपने पुराने YouTube वीडियो देखने से बेहतर काम हैं। सौभाग्य से, कृत्रिम बुद्धिमत्ता हमारे लिए उस अस्तित्वगत भय को संभालने आ गई है। एक हालिया परीक्षण में, मैंने ChatGPT, Claude और Gemini को इस कठिन कार्य के अधीन किया कि वे वास्तव में समझें कि एक वीडियो में क्या हो रहा है - YouTube लिंक और स्थानीय फ़ाइलों दोनों से। परिणाम "प्रभावशाली रूप से बोधगम्य" से लेकर "माफ़ करें, मैं ऐसा नहीं कर सकता, डेव" तक रहे।

मैंने प्रत्येक AI को तीन वीडियो खिलाए: एनीलिंग की वैज्ञानिक प्रक्रिया के बारे में एक YouTube व्याख्याकार (हाँ, मैं उतना ही रोमांचक हूँ), DJI Neo 2 ड्रोन पर इशारे करते हुए मेरा एक मूक MP4, और मेरे YouTube पोस्टिंग रणनीति के बारे में चलते-बात करते हुए मेरा 1.65GB MOV फ़ाइल - कोई मेटाडेटा नहीं, कोई ट्रांसक्रिप्ट नहीं, बस शुद्ध, अविवादित मैं। प्रॉम्प्ट ताज़गी से सरल था: "क्या आप यह वीडियो देख सकते हैं?" क्योंकि जाहिर तौर पर उन्हें "समझने" या "सारांशित करने" के लिए कहना उन्हें डिजिटल रैकून की तरह मेटाडेटा की खोज में भेज देता है।

पहले बुरी खबर से निपट लेते हैं। Claude - चाहे ऐप पर हो या वेब इंटरफ़ेस पर - एक विनम्र लेकिन दृढ़ ईंट की दीवार था। इसने मुझे, शब्दों में, सूचित किया कि यह सीधे वीडियो सामग्री नहीं देख सकता, दृश्य या ऑडियो फ्रेम प्रोसेस नहीं कर सकता, और आम तौर पर टोस्टर के बराबर वीडियो देखने की क्षमता रखता है। Claude Max, $100 प्रति माह पर, जाहिर तौर पर आपको एक बहुत अच्छी तरह से बोली गई अस्वीकृति खरीदता है।

दूसरी ओर, Gemini कक्षा में ओवरअचीवर था। वेब इंटरफ़ेस ने मेरे द्वारा फेंकी गई हर चीज़ को संभाला - YouTube URL, 625MB MP4, और वह विशाल 1.65GB MOV फ़ाइल - सीधे ब्राउज़र टैब में, बिना किसी ऐप की आवश्यकता के। सबसे प्रभावशाली प्रदर्शन मूक ड्रोन परीक्षण वीडियो था, जिसमें कोई ऑडियो नहीं है और मेरे यार्ड में खड़े होकर हाथ हिलाने के अलावा कोई संदर्भ नहीं है। Gemini ने न केवल यह पता लगाया कि मैं ड्रोन नियंत्रण के लिए हाथ के इशारों का परीक्षण कर रहा था, बल्कि सही ढंग से अनुमान लगाया कि ड्रोन कैमरे के रूप में काम कर रहा था और इसलिए फुटेज में अदृश्य था। मुझे यकीन है कि काफी संख्या में मनुष्य - ईमानदारी से कहें तो मेरे पड़ोसी भी - यह नहीं समझ पाते। इसने मेरे एनीलिंग वीडियो को भी सफलतापूर्वक पार्स किया, अनुभागों और विशिष्ट मौखिक बिंदुओं की पहचान की, और स्थान और टिप्पणी विषयों को नोट करने के लिए चलने-बात करने वाले वीडियो को समझा।

जहाँ Gemini लड़खड़ाया वह वीडियो समझ से छवि निर्माण में संक्रमण था। जब मैंने इसे वीडियो सामग्री और मेरी मौजूदा शैली के आधार पर एक नया YouTube थंबनेल बनाने के लिए कहा, तो इसने एक दाढ़ी वाले आदमी (दुख की बात है कि मैं नहीं) का आविष्कार करने का फैसला किया और "FIRE" को "FCIRE" लिखा। बहुत करीब, और फिर भी थंबनेल गौरव से बहुत दूर।

फिर ChatGPT है, जो एक क्लासिक अच्छी-खबर-बुरी-खबर की स्थिति है। बुरी खबर: ChatGPT स्वयं YouTube लिंक नहीं पढ़ सका, और जबकि यह सैद्धांतिक रूप से वीडियो प्रोसेस कर सकता है, उन्हें 500MB से कम होना चाहिए। मेरे, ज़ाहिर है, नहीं थे। अच्छी खबर: इसे OpenAI के Codex एजेंट के साथ जोड़ें, और चीज़ें दिलचस्प हो जाती हैं। Codex ने दोनों स्थानीय फ़ाइलों को पढ़ा, ड्रोन परीक्षण को "एक बैकयार्ड ड्रोन टेस्ट शॉट" के रूप में सही ढंग से पहचाना। वॉक-एंड-टॉक MOV के लिए, इसने शुरू में इनकार किया, फिर विनम्रता से ऑडियो ट्रांसक्रिप्शन के लिए Python कोड और लाइब्रेरी स्थापित करने की अनुमति मांगी। एक बार जब उसने ऐसा किया, तो उसने संदर्भ को पूरी तरह से समझ लिया। जब Codex सीधे YouTube स्ट्रीम नहीं देख सका, तो मैंने इसे वीडियो को स्थानीय रूप से डाउनलोड करने के लिए कहा - और इसने स्वचालित रूप से एक Python स्क्रिप्ट लिखी, लाइब्रेरी स्थापित की, और मौके पर ही तात्कालिक वीडियो-डाउनलोडिंग तकनीक का आविष्कार किया।

थंबनेल बनाने के लिए मुझे Codex और ChatGPT के बीच मध्यस्थ की भूमिका निभानी पड़ी। Codex ने एक फ्रेम चुना और एक प्रॉम्प्ट लिखा; ChatGPT ने छवि उत्पन्न की। परिणाम Gemini से बेहतर था - इसने मेरे वास्तविक चेहरे का उपयोग किया और मेरी रंग योजना (सफेद, पीला, काला) उठाया - लेकिन इसने एल्यूमीनियम बार को सपाट सामग्री के बजाय चौकोर ट्यूबिंग बना दिया, शार्पी के निशान गलत कोणों पर रखे, और मोड़ को आपराधिक रूप से तेज समकोण दिया। कुछ सुधारात्मक प्रॉम्प्ट के बाद यह करीब आ गया, हालाँकि मैं अभी भी थंबनेल हाथ से करना पसंद करता हूँ।

उल्लेखनीय निष्कर्ष: Gemini और ChatGPT/Codex जोड़ी दोनों ने प्रत्येक वीडियो की व्याख्या लगभग दो से तीन मिनट में की - जो वास्तविक 15-मिनट के वीडियो से कहीं कम है।

मैंने तीन AI को अपने वीडियो देखने को कहा ताकि आपको न करना पड़े - एक ने सच में ध्यान दिया

आपके इनबॉक्स में समाचार।