Siamo onesti: la maggior parte di noi ha cose migliori da fare che guardare i propri vecchi video su YouTube. Fortunatamente, l'intelligenza artificiale è qui per gestire quell'angoscia esistenziale per noi. In un test recente, ho sottoposto ChatGPT, Claude e Gemini al gravoso compito di capire cosa succede effettivamente in un video — sia da link YouTube che da file locali. I risultati sono andati da "impressionantemente percettivo" a "Mi dispiace, non posso farlo, Dave."
Ho dato a ciascuna IA tre video: un video esplicativo su YouTube sul processo scientifico della ricottura (sì, sono così entusiasmante), un MP4 muto in cui gesticolo verso un drone DJI Neo 2, e un file MOV da 1,65 GB in cui cammino e parlo della mia strategia di pubblicazione su YouTube — nessun metadato, nessuna trascrizione, solo me puro e semplice. Il prompt era rinfrescante semplice: "Puoi guardare questo video?" Perché a quanto pare chiedere loro di "capire" o "riassumere" le manda a caccia di metadati come procioni digitali.
Togliamo di mezzo le cattive notizie. Claude — sia sull'app che sull'interfaccia web — è stato un muro di gomma educato ma fermo. Mi ha informato, in poche parole, che non può guardare direttamente contenuti video, non può elaborare fotogrammi visivi o audio, e in generale ha la stessa capacità di guardare video di un tostapane. Claude Max, a 100 dollari al mese, a quanto pare ti compra un rifiuto molto eloquente.
Gemini, d'altra parte, è stato il secchione della classe. L'interfaccia web ha gestito tutto ciò che gli ho lanciato — URL YouTube, un MP4 da 625 MB e quel gigantesco file MOV da 1,65 GB — direttamente in una scheda del browser, senza bisogno di app. La dimostrazione più impressionante è stata il video muto del test del drone, che non contiene audio né contesto oltre a me in piedi in un cortile che agito le braccia. Gemini non solo ha capito che stavo testando gesti delle mani per il controllo del drone, ma ha dedotto correttamente che il drone fungeva da telecamera ed era quindi invisibile nelle riprese. Scommetto che un bel po' di umani — inclusi, siamo onesti, i miei vicini — non ci sarebbero arrivati. Ha anche analizzato con successo il mio video sulla ricottura, identificando sezioni e punti verbali specifici, e ha capito il walk-and-talk abbastanza bene da notare la posizione e gli argomenti del commento.
Dove Gemini ha inciampato è stato nel passaggio dalla comprensione video alla generazione di immagini. Quando gli ho chiesto di creare una nuova miniatura YouTube basata sul contenuto del video e sul mio stile esistente, ha deciso di inventare un uomo barbuto (non io, purtroppo) e ha scritto "FIRE" come "FCIRE". Così vicino, eppure così lontano dalla gloria delle miniature.
Poi c'è ChatGPT, che è un classico caso di buone-notizie-cattive-notizie. La cattiva notizia: ChatGPT stesso non poteva leggere link YouTube, e mentre può teoricamente elaborare video, devono essere sotto i 500 MB. I miei, ovviamente, non lo erano. La buona notizia: abbinalo all'agente Codex di OpenAI, e le cose si fanno interessanti. Codex ha letto entrambi i file locali, identificando correttamente il test del drone come "un test del drone in cortile". Per il MOV walk-and-talk, inizialmente ha esitato, poi ha chiesto gentilmente il permesso di installare codice Python e librerie per la trascrizione audio. Una volta fatto, ha capito perfettamente il contesto. Quando Codex non poteva guardare lo stream YouTube direttamente, gli ho chiesto di scaricare il video localmente — e ha automaticamente scritto uno script Python, installato librerie e inventato tecnologia di download video improvvisata al volo.
Creare una miniatura ha richiesto che facessi da intermediario tra Codex e ChatGPT. Codex ha scelto un fotogramma e scritto un prompt; ChatGPT ha generato l'immagine. Il risultato è stato migliore di quello di Gemini — ha usato la mia faccia reale e ha ripreso la mia combinazione di colori (bianco, giallo, nero) — ma ha trasformato la barra di alluminio in un tubo quadrato invece che in materiale piatto, ha posizionato i segni di Sharpie ad angoli sbagliati e ha dato alla piega un angolo retto criminalmente netto. Qualche prompt correttivo l'ha avvicinato, anche se preferisco ancora fare le miniature a mano.
Note degne di nota: sia Gemini che il duo ChatGPT/Codex hanno interpretato i video in circa due o tre minuti ciascuno — molto meno dei 15 minuti effettivi.