Să fim sinceri: cei mai mulți dintre noi avem lucruri mai bune de făcut decât să ne uităm la propriile videoclipuri vechi de pe YouTube. Din fericire, inteligența artificială este aici pentru a gestiona acea groază existențială în locul nostru. Într-un test recent, am supus ChatGPT, Claude și Gemini la sarcina epuizantă de a înțelege ce se întâmplă într-un videoclip – atât din linkuri YouTube, cât și din fișiere locale. Rezultatele au variat de la „impresionant de perceptiv” la „îmi pare rău, nu pot face asta, Dave”.

Am hrănit fiecare AI cu trei videoclipuri: un explicativ YouTube despre procesul științific de recoacere (da, sunt atât de interesant), un MP4 mut cu mine gesticulând la o dronă DJI Neo 2 și un fișier MOV de 1,65 GB cu mine mergând și vorbind despre strategia mea de postare pe YouTube – fără metadate, fără transcrieri, doar eu pur și simplu. Promptul a fost simplu: „Poți să te uiți la acest videoclip?” Pentru că, aparent, a le cere să „înțeleagă” sau să „rezume” le face să caute metadate ca niște ratoni digitali.

Să scăpăm mai întâi de veștile proaste. Claude – fie în aplicație, fie în interfața web – a fost un zid politicos, dar ferm. M-a informat, în atâtea cuvinte, că nu poate viziona conținut video direct, nu poate procesa cadre vizuale sau audio și, în general, are aceeași capacitate de a viziona videoclipuri ca un prăjitor de pâine. Claude Max, la 100 de dolari pe lună, aparent îți cumpără un refuz foarte bine formulat.

Gemini, pe de altă parte, a fost cel care excelează în clasă. Interfața web a gestionat tot ce i-am aruncat – URL-uri YouTube, un MP4 de 625 MB și acel fișier MOV masiv de 1,65 GB – direct într-o filă de browser, fără a fi nevoie de aplicație. Cea mai impresionantă demonstrație a fost videoclipul mut de testare a dronei, care nu conține audio și niciun context, în afară de mine stând în curte și fluturând brațele. Gemini nu doar că și-a dat seama că testam gesturi manuale pentru controlul dronei, dar a dedus corect că drona acționa ca și cameră și, prin urmare, era invizibilă în filmare. Pariez că un număr destul de mare de oameni – inclusiv, să fim sinceri, vecinii mei – nu ar fi observat asta. De asemenea, a analizat cu succes videoclipul despre recoacere, identificând secțiuni și puncte verbale specifice, și a înțeles suficient de bine plimbarea și discuția pentru a nota locația și subiectele comentariilor.

Unde s-a împiedicat Gemini a fost în tranziția de la înțelegerea videoclipului la generarea de imagini. Când i-am cerut să creeze o nouă miniatură YouTube pe baza conținutului videoclipului și a stilului meu existent, a decis să inventeze un bărbat cu barbă (nu eu, din păcate) și a scris „FIRE” ca „FCIRE”. Atât de aproape, și totuși atât de departe de gloria miniaturilor.

Apoi este ChatGPT, care este o situație clasică de vești bune și vești proaste. Veștile proaste: ChatGPT însuși nu a putut citi linkurile YouTube și, deși poate procesa teoretic videoclipuri, acestea trebuie să fie sub 500 MB. Ale mele, desigur, nu erau. Veștile bune: asociază-l cu agentul Codex de la OpenAI, și lucrurile devin interesante. Codex a citit ambele fișiere locale, identificând corect testul dronei ca „o filmare de testare a dronei în curtea din spate”. Pentru MOV-ul cu plimbarea și discuția, inițial a ezitat, apoi a cerut politicos permisiunea de a instala cod Python și biblioteci pentru transcriere audio. Odată ce a făcut asta, a înțeles contextul perfect. Când Codex nu a putut viziona direct streamul YouTube, i-am cerut să descarce videoclipul local – și a scris automat un script Python, a instalat biblioteci și a inventat tehnologie improvizată de descărcare video pe loc.

Crearea unei miniaturi a necesitat să joc rolul de intermediar între Codex și ChatGPT. Codex a ales un cadru și a scris un prompt; ChatGPT a generat imaginea. Rezultatul a fost mai bun decât al lui Gemini – a folosit fața mea reală și a preluat schema mea de culori (alb, galben, negru) – dar a transformat bara de aluminiu într-o țeavă pătrată în loc de material plat, a plasat marcajele Sharpie la unghiuri greșite și a dat îndoirii un unghi drept criminal de ascuțit. Câteva prompturi corective l-au apropiat, deși prefer totuși să fac miniaturile manual.

Concluzii notabile: atât Gemini, cât și perechea ChatGPT/Codex au interpretat videoclipurile în aproximativ două-trei minute fiecare – mult mai puțin decât cele 15 minute reale.