Låt oss vara ärliga: de flesta av oss har bättre saker för sig än att titta på våra egna gamla YouTube-videor. Lyckligtvis finns artificiell intelligens här för att hantera den existentiella ångesten åt oss. I ett nyligen test utsatte jag ChatGPT, Claude och Gemini för den mödosamma uppgiften att faktiskt förstå vad som händer i en video – både från YouTube-länkar och lokala filer. Resultaten sträckte sig från "imponerande insiktsfullt" till "Jag kan inte göra det, Dave."

Jag matade varje AI med tre videor: en YouTube-förklaring om den vetenskapliga processen glödgning (ja, jag är så spännande), en tyst MP4 där jag gestikulerar mot en DJI Neo 2-drönare, och en 1,65 GB MOV-fil där jag går och pratar om min YouTube-publiceringsstrategi – ingen metadata, inga transkript, bara ren, oförfalskad jag. Uppmaningen var uppfriskande enkel: "Kan du titta på den här videon?" För att tydligen be dem "förstå" eller "sammanfatta" får dem bara att jaga metadata som digitala tvättbjörnar.

Låt oss få dåliga nyheter ur vägen först. Claude – vare sig i appen eller webbgränssnittet – var en artig men bestämd tegelvägg. Den informerade mig, med andra ord, att den inte kan titta på videoinnehåll direkt, inte kan bearbeta visuella eller ljudramar, och generellt har all videotittningskapacitet som en brödrost. Claude Max, för 100 dollar i månaden, köper dig tydligen ett mycket välartat avslag.

Gemini, å andra sidan, var överpresteraren i klassen. Webbgränssnittet hanterade allt jag kastade på det – YouTube-URL:er, en 625 MB MP4 och den enorma 1,65 GB MOV-filen – direkt i en webbläsarflik, ingen app krävdes. Den mest imponerande demonstrationen var den tysta drönartestvideon, som inte innehåller något ljud och ingen kontext annat än mig som står på en gård och viftar med armarna. Gemini listade inte bara ut att jag testade handgester för drönarkontroll, utan drog korrekt slutsatsen att drönaren agerade kamera och därför var osynlig i materialet. Jag slår vad om att ett antal människor – inklusive, låt oss vara ärliga, mina grannar – inte skulle ha fattat det. Den tolkade också framgångsrikt min glödgningsvideo, identifierade avsnitt och specifika verbala punkter, och förstod gå-och-prata-videon tillräckligt bra för att notera plats och kommentarsämnen.

Där Gemini snubblade var i övergången från videoförståelse till bildgenerering. När jag bad den skapa en ny YouTube-miniatyr baserad på videoinnehållet och min befintliga stil, bestämde den sig för att uppfinna en skäggig man (inte jag, tyvärr) och stavade "FIRE" som "FCIRE." Så nära, och ändå så långt från miniatyrglans.

Sedan har vi ChatGPT, som är en klassisk bra-nyheter-dåliga-nyheter-situation. De dåliga nyheterna: ChatGPT själv kunde inte läsa YouTube-länkar, och även om den teoretiskt kan bearbeta videor måste de vara under 500 MB. Mina var det förstås inte. De goda nyheterna: para ihop den med OpenAIs Codex-agent, och saker blir intressanta. Codex läste båda lokala filerna, identifierade korrekt drönartestet som "en bakgårdsdrönartestinspelning." För gå-och-prata-MOV-filen tvekade den först, bad sedan artigt om tillstånd att installera Python-kod och bibliotek för ljudtranskribering. När den gjort det förstod den sammanhanget perfekt. När Codex inte kunde titta på YouTube-strömmen direkt bad jag den ladda ner videon lokalt – och den skrev automatiskt ett Python-skript, installerade bibliotek och uppfann improviserad videonedladdningsteknik i farten.

Att skapa en miniatyr krävde att jag agerade mellanhand mellan Codex och ChatGPT. Codex valde en bildruta och skrev en uppmaning; ChatGPT genererade bilden. Resultatet var bättre än Geminis – den använde mitt faktiska ansikte och plockade upp mitt färgschema (vitt, gult, svart) – men den gjorde aluminiumstången till fyrkantsrör istället för platt material, placerade Sharpie-märken i fel vinklar och gav böjen en kriminellt skarp rät vinkel. Några korrigerande uppmaningar fick det närmare, även om jag fortfarande föredrar att göra miniatyrer för hand.

Anmärkningsvärda slutsatser: både Gemini och ChatGPT/Codex-duon tolkade videor på cirka två till tre minuter var – långt mindre än de faktiska 15 minuterna.