Üç Yapay Zekâya Videolarımı İzlettim ki Siz İzlemek Zorunda Kalmayın - Biri Gerçekten Dikkat Etti

Gemini videoları izliyor ve anlıyor; ChatGPT'nin elini tutması için Codex'e ihtiyacı var; Claude ise ayda 100 dolar alıp 'Bunu yapamam' diyor. Üç yapay zekânın, bir sessiz drone testinin ve gerçekten sorgulanabilir küçük resimlerin hikâyesi.

Dürüst olalım: çoğumuzun kendi eski YouTube videolarını izlemekten daha iyi işleri var. Neyse ki yapay zekâ bu varoluşsal dehşeti bizim için halletmek üzere burada. Yakın zamanda yaptığım bir testte ChatGPT, Claude ve Gemini'yi bir videoda gerçekten ne olduğunu anlama gibi zorlu bir göreve tabi tuttum - hem YouTube bağlantılarından hem de yerel dosyalardan. Sonuçlar "etkileyici derecede anlayışlı"dan "Üzgünüm, bunu yapamam, Dave"e kadar uzandı.

Her yapay zekâya üç video verdim: bilimsel tavlama süreciyle ilgili bir YouTube açıklayıcısı (evet, bu kadar heyecanlıyım), bir DJI Neo 2 drone'a el kol hareketleri yaptığım sessiz bir MP4 ve YouTube yayınlama stratejim hakkında yürüyüp konuştuğum 1.65 GB'lık bir MOV dosyası - hiçbir meta veri, transkript yok, sadece saf, katıksız ben. İstem son derece basitti: "Bu videoyu izleyebilir misin?" Çünkü görünüşe göre onlardan "anlamalarını" veya "özetlemelerini" istemek, onları dijital rakunlar gibi meta veri avına gönderiyor.

Önce kötü haberi aradan çıkaralım. Claude - ister uygulamada ister web arayüzünde olsun - kibar ama kararlı bir duvardı. Bana, açıkça, video içeriğini doğrudan izleyemeyeceğini, görsel veya işitsel kareleri işleyemeyeceğini ve genel olarak bir tost makinesi kadar video izleme yeteneğine sahip olduğunu bildirdi. Claude Max, ayda 100 dolara, görünüşe göre size çok iyi konuşan bir ret satın alıyor.

Gemini ise sınıfın aşırı başarılısıydı. Web arayüzü, önüne attığım her şeyi halletti - YouTube URL'leri, 625 MB'lık bir MP4 ve o devasa 1.65 GB'lık MOV dosyası - doğrudan bir tarayıcı sekmesinde, uygulama gerektirmeden. En etkileyici gösteri, hiç ses içermeyen ve bir bahçede el kol hareketleri yapmam dışında hiçbir bağlamı olmayan sessiz drone test videosuydu. Gemini sadece drone kontrolü için el hareketlerini test ettiğimi anlamakla kalmadı, aynı zamanda dronun kamera olarak hareket ettiğini ve bu nedenle görüntüde görünmez olduğunu doğru bir şekilde çıkardı. Bahse girerim ki birçok insan - komşularım dahil, dürüst olalım - bunu fark etmezdi. Ayrıca tavlama videomu başarıyla ayrıştırdı, bölümleri ve belirli sözlü noktaları tanımladı ve yürüyüp konuşma videosunu, konum ve yorum konularını not edecek kadar iyi anladı.

Gemini'nin tökezlediği yer, video anlayışından görüntü oluşturmaya geçişti. Videoya ve mevcut stiline dayalı yeni bir YouTube küçük resmi oluşturmasını istediğimde, sakallı bir adam (maalesef ben değil) icat etmeye karar verdi ve "FIRE"ı "FCIRE" olarak yazdı. Çok yaklaştı ama küçük resim zaferinden çok uzak.

Bir de ChatGPT var ki bu klasik bir iyi haber-kötü haber durumu. Kötü haber: ChatGPT'nin kendisi YouTube bağlantılarını okuyamıyordu ve teoride videoları işleyebilse de, videoların 500 MB'ın altında olması gerekiyor. Benimkiler, tabii ki, değildi. İyi haber: OpenAI'nin Codex ajanıyla eşleştirin, işler ilginçleşiyor. Codex her iki yerel dosyayı da okudu, drone testini doğru bir şekilde "arka bahçe drone test çekimi" olarak tanımladı. Yürüyüp konuşma MOV dosyası için önce tereddüt etti, sonra ses transkripsiyonu için Python kodu ve kütüphaneleri kurmak için kibarca izin istedi. Bunu yaptıktan sonra bağlamı mükemmel bir şekilde anladı. Codex YouTube akışını doğrudan izleyemediğinde, videoyu yerel olarak indirmesini istedim - ve otomatik olarak bir Python betiği yazdı, kütüphaneler kurdu ve anında video indirme teknolojisi icat etti.

Bir küçük resim oluşturmak, Codex ve ChatGPT arasında aracılık yapmamı gerektirdi. Codex bir kare seçti ve bir istem yazdı; ChatGPT görüntüyü oluşturdu. Sonuç, Gemini'ninkinden daha iyiydi - gerçek yüzümü kullandı ve renk şemamı (beyaz, sarı, siyah) yakaladı - ancak alüminyum çubuğu düz malzeme yerine kare boru haline getirdi, Sharpie işaretlerini yanlış açılara yerleştirdi ve büküme suç derecesinde keskin bir dik açı verdi. Birkaç düzeltici istemle daha yaklaştı, ancak yine de küçük resimleri elle yapmayı tercih ediyorum.

Önemli çıkarımlar: hem Gemini hem de ChatGPT/Codex ikilisi videoları her biri yaklaşık iki ila üç dakikada yorumladı - gerçek 15 dakikalık videodan çok daha az. Claude ise sadece bir ret makinesiydi. Ayrıca, Codex'in bir video indirme betiği yazma yeteneği, bir yapay zekânın kendi yeteneklerini aşmak için araçlar oluşturmasının harika bir örneğiydi. Son olarak, küçük resim oluşturma hâlâ bir karmaşa - yapay zekâlar görsel bağlamı anlayabiliyor ancak tutarlı bir şekilde uygulayamıyor.

Üç Yapay Zekâya Videolarımı İzlettim ki Siz İzlemek Zorunda Kalmayın - Biri Gerçekten Dikkat Etti

Haberler gelen kutuna.