Soyons honnêtes : la plupart d'entre nous ont mieux à faire que de regarder leurs propres vieilles vidéos YouTube. Heureusement, l'intelligence artificielle est là pour gérer cette angoisse existentielle à notre place. Dans un test récent, j'ai soumis ChatGPT, Claude et Gemini à la tâche ardue de comprendre réellement ce qui se passe dans une vidéo — que ce soit via des liens YouTube ou des fichiers locaux. Les résultats allaient de « impressionnant de perspicacité » à « désolé, je ne peux pas faire ça, Dave ».

J'ai donné à chaque IA trois vidéos : un explainer YouTube sur le processus scientifique de recuit (oui, je suis aussi excitant que ça), un MP4 silencieux de moi gesticulant devant un drone DJI Neo 2, et un fichier MOV de 1,65 Go de moi marchant et parlant de ma stratégie de publication YouTube — pas de métadonnées, pas de transcriptions, juste moi à l'état pur. La consigne était rafraîchissamment simple : « Peux-tu regarder cette vidéo ? » Parce que, apparemment, leur demander de « comprendre » ou de « résumer » les envoie simplement chercher des métadonnées comme des ratons laveurs numériques.

Commençons par les mauvaises nouvelles. Claude — que ce soit sur l'application ou l'interface web — était un mur poli mais ferme. Il m'a informé, en substance, qu'il ne peut pas regarder de contenu vidéo directement, ne peut pas traiter les images visuelles ou audio, et qu'en général, il a la capacité de regarder des vidéos d'un grille-pain. Claude Max, à 100 $ par mois, vous offre apparemment un refus très bien formulé.

Gemini, en revanche, était le surdoué de la classe. L'interface web a géré tout ce que je lui ai lancé — des URLs YouTube, un MP4 de 625 Mo, et cet énorme fichier MOV de 1,65 Go — directement dans un onglet de navigateur, sans application requise. La démonstration la plus impressionnante a été la vidéo de test du drone silencieux, qui ne contient aucun son ni contexte autre que moi debout dans un jardin en agitant les bras. Gemini a non seulement compris que je testais des gestes de la main pour le contrôle du drone, mais a correctement déduit que le drone faisait office de caméra et était donc invisible dans les images. Je parie qu'un bon nombre d'humains — y compris, soyons honnêtes, mes voisins — n'auraient pas capté ça. Il a également réussi à analyser ma vidéo sur le recuit, identifiant les sections et les points verbaux spécifiques, et a compris la vidéo de marche et discussion suffisamment bien pour noter les lieux et les sujets de commentaires.

Là où Gemini a trébuché, c'est dans la transition de la compréhension vidéo à la génération d'images. Quand je lui ai demandé de créer une nouvelle miniature YouTube basée sur le contenu de la vidéo et mon style existant, il a décidé d'inventer un homme barbu (pas moi, hélas) et a épelé « FIRE » comme « FCIRE ». Si proche, et pourtant si loin de la gloire des miniatures.

Puis il y a ChatGPT, qui est un classique cas de bonnes et mauvaises nouvelles. La mauvaise nouvelle : ChatGPT lui-même ne pouvait pas lire les liens YouTube, et bien qu'il puisse théoriquement traiter des vidéos, elles doivent faire moins de 500 Mo. Les miennes, bien sûr, ne l'étaient pas. La bonne nouvelle : associez-le à l'agent Codex d'OpenAI, et les choses deviennent intéressantes. Codex a lu les deux fichiers locaux, identifiant correctement le test du drone comme « un test de drone dans un jardin ». Pour le MOV de marche et discussion, il a d'abord hésité, puis a poliment demandé la permission d'installer du code Python et des bibliothèques pour la transcription audio. Une fois cela fait, il a parfaitement compris le contexte. Quand Codex n'a pas pu regarder le flux YouTube directement, je lui ai demandé de télécharger la vidéo localement — et il a automatiquement écrit un script Python, installé des bibliothèques et inventé une technologie de téléchargement vidéo improvisée à la volée.

Créer une miniature a nécessité que je joue l'intermédiaire entre Codex et ChatGPT. Codex a choisi une image et écrit une consigne ; ChatGPT a généré l'image. Le résultat était meilleur que celui de Gemini — il a utilisé mon vrai visage et a repris ma palette de couleurs (blanc, jaune, noir) — mais il a transformé la barre en aluminium en tube carré au lieu d'un matériau plat, placé les marques Sharpie à des angles incorrects, et donné au pli un angle droit criminellement net. Quelques consignes correctives l'ont rapproché, même si je préfère toujours faire les miniatures à la main.

Points notables : Gemini et le duo ChatGPT/Codex ont interprété les vidéos en environ deux à trois minutes chacun — bien moins que les 15 minutes réelles.