لنكن صادقين: معظمنا لديه أشياء أفضل ليفعلها من مشاهدة فيديوهات يوتيوب القديمة الخاصة به. لحسن الحظ، الذكاء الاصطناعي هنا ليتولى هذا الرعب الوجودي نيابة عنا. في اختبار حديث، أخضعت ChatGPT وClaude وGemini لمهمة شاقة تتمثل في فهم ما يحدث في فيديو - سواء من روابط يوتيوب أو ملفات محلية. تراوحت النتائج بين "مدرك بشكل مثير للإعجاب" و"آسف، لا أستطيع فعل ذلك يا ديف."

أطعمت كل ذكاء اصطناعي ثلاثة فيديوهات: فيديو شرح على يوتيوب عن العملية العلمية للتلدين (نعم، أنا مثير بهذا القدر)، ملف MP4 صامت لي وأنا أشير بطائرة DJI Neo 2 بدون طيار، وملف MOV بحجم 1.65 جيجابايت لي وأنا أمشي وأتحدث عن استراتيجية النشر على يوتيوب - بدون بيانات وصفية، بدون نصوص، فقط أنا الخالص. كان الأمر بسيطًا بشكل منعش: "هل يمكنك مشاهدة هذا الفيديو؟" لأنه على ما يبدو، طلب "الفهم" أو "التلخيص" يدفعهم للبحث عن البيانات الوصفية مثل حيوانات الراكون الرقمية.

دعنا نخرج الأخبار السيئة أولاً. Claude - سواء على التطبيق أو الواجهة الإلكترونية - كان جدارًا من الطوب مهذبًا ولكن حازمًا. أخبرني، بكلمات موجزة، أنه لا يمكنه مشاهدة محتوى الفيديو مباشرة، ولا يمكنه معالجة الإطارات المرئية أو الصوتية، وبشكل عام لديه قدرة مشاهدة فيديو تعادل قدرة محمصة خبز. Claude Max، بسعر 100 دولار شهريًا، يشتري لك على ما يبدو رفضًا مهذبًا جدًا.

Gemini، من ناحية أخرى، كان المتفوق في الفصل. تعاملت الواجهة الإلكترونية مع كل ما ألقيت عليه - روابط يوتيوب، ملف MP4 بحجم 625 ميجابايت، وملف MOV الضخم بحجم 1.65 جيجابايت - مباشرة في علامة تبويب المتصفح، بدون حاجة لتطبيق. كان العرض الأكثر إثارة للإعجاب هو اختبار الطائرة بدون طيار الصامت، الذي لا يحتوي على صوت ولا سياق سواي وأنا أقف في الفناء وألوح بذراعي. لم يكتفِ Gemini بمعرفة أنني كنت أختبر إيماءات اليد للتحكم بالطائرة بدون طيار، بل استنتج بشكل صحيح أن الطائرة كانت تعمل ككاميرا وبالتالي كانت غير مرئية في اللقطات. أراهن أن عددًا لا بأس به من البشر - بما في ذلك، لنكن صادقين، جيراني - لم يكونوا ليلتقطوا ذلك. كما نجح في تحليل فيديو التلدين، وتحديد الأقسام والنقاط اللفظية المحددة، وفهم فيديو المشي والحديث بما يكفي لملاحظة الموقع وموضوعات التعليق.

حيث تعثر Gemini كان في الانتقال من فهم الفيديو إلى توليد الصور. عندما طلبت منه إنشاء صورة مصغرة جديدة ليوتيوب بناءً على محتوى الفيديو وأسلوبي الحالي، قرر اختراع رجل ملتح (ليس أنا، للأسف) وتهجئة "FIRE" كـ "FCIRE". قريب جدًا، ولكن بعيد جدًا عن مجد الصورة المصغرة.

ثم هناك ChatGPT، وهو حالة كلاسيكية من أخبار جيدة وأخبار سيئة. الخبر السيئ: ChatGPT نفسه لم يستطع قراءة روابط يوتيوب، وبينما يمكنه نظريًا معالجة الفيديوهات، يجب أن تكون أقل من 500 ميجابايت. فيديوهاتي، بالطبع، لم تكن كذلك. الخبر الجيد: قم بإقرانه مع وكيل Codex من OpenAI، وتصبح الأمور مثيرة للاهتمام. قرأ Codex كلا الملفين المحليين، وحدد بشكل صحيح اختبار الطائرة بدون طيار كـ "اختبار طائرة بدون طيار في الفناء الخلفي". بالنسبة لملف MOV للمشي والحديث، تردد في البداية، ثم طلب الإذن بأدب لتثبيت كود Python ومكتبات للنسخ الصوتي. بمجرد أن فعل ذلك، فهم السياق بشكل مثالي. عندما لم يستطع Codex مشاهدة بث يوتيوب مباشرة، طلبت منه تنزيل الفيديو محليًا - وكتب تلقائيًا سكريبت Python، وقام بتثبيت المكتبات، واخترع تقنية تنزيل فيديو مرتجلة على الطاير.

إنشاء صورة مصغرة تطلب مني أن ألعب دور الوسيط بين Codex وChatGPT. اختار Codex إطارًا وكتب موجهًا؛ أنشأ ChatGPT الصورة. كانت النتيجة أفضل من Gemini - استخدم وجهي الفعلي والتقط نظام ألواني (أبيض، أصفر، أسود) - لكنه جعل القضيب الألومنيوم على شكل أنبوب مربع بدلاً من مادة مسطحة، ووضع علامات Sharpie بزوايا خاطئة، وأعطى الانحناء زاوية قائمة إجرامية. بضع موجهات تصحيحية جعلته أقرب، رغم أنني لا أزال أفضل عمل الصور المصغرة يدويًا.

ملاحظات بارزة: كل من Gemini وثنائي ChatGPT/Codex فسرا الفيديوهات في حوالي دقيقتين إلى ثلاث دقائق لكل منها - أقل بكثير من الـ 15 دقيقة الفعلية.