Ich ließ drei KI meine Videos schauen, damit du es nicht musst – eine hat tatsächlich aufgepasst

Ein Test von drei KI-Modellen zeigt, dass Gemini Videos am besten versteht, ChatGPT mit Codex gut zusammenarbeitet und Claude sich standhaft weigert, Videos anzusehen.

Seien wir ehrlich: Die meisten von uns haben Besseres zu tun, als sich eigene alte YouTube-Videos anzusehen. Glücklicherweise ist künstliche Intelligenz da, um diese existenzielle Angst für uns zu übernehmen. In einem kürzlichen Test unterzog ich ChatGPT, Claude und Gemini der mühsamen Aufgabe, tatsächlich zu verstehen, was in einem Video passiert – sowohl von YouTube-Links als auch von lokalen Dateien. Die Ergebnisse reichten von „beeindruckend aufmerksam“ bis zu „Es tut mir leid, Dave, das kann ich nicht tun.“

Ich fütterte jede KI mit drei Videos: einem YouTube-Erklärvideo über den wissenschaftlichen Prozess des Glühens (ja, ich bin so aufregend), einer stummen MP4-Datei, in der ich auf eine DJI Neo 2 Drohne gestikuliere, und einer 1,65 GB großen MOV-Datei, in der ich herumlaufe und über meine YouTube-Poststrategie spreche – keine Metadaten, keine Transkripte, nur purer, unverfälschter Ich. Die Aufforderung war erfrischend einfach: „Kannst du dir dieses Video ansehen?“ Denn offenbar führt die Bitte, es zu „verstehen“ oder „zusammenzufassen“ nur dazu, dass sie wie digitale Waschbären nach Metadaten suchen.

Lassen Sie uns zuerst die schlechte Nachricht aus dem Weg räumen. Claude – ob in der App oder im Web-Interface – war eine höfliche, aber feste Mauer. Es teilte mir mit, dass es keine Videoinhalte direkt ansehen, keine visuellen oder Audio-Frames verarbeiten kann und generell die Video-Schau-Fähigkeit eines Toasters besitzt. Claude Max für 100 Dollar im Monat kauft einem offenbar eine sehr eloquente Ablehnung.

Gemini hingegen war der Überflieger in der Klasse. Das Web-Interface verarbeitete alles, was ich ihm vorwarf – YouTube-URLs, eine 625 MB große MP4 und diese riesige 1,65 GB MOV-Datei – direkt im Browser-Tab, ohne App. Die beeindruckendste Demonstration war das stumme Drohnentestvideo, das kein Audio und keinen Kontext enthält, außer dass ich im Hof stehe und mit den Armen winke. Gemini erkannte nicht nur, dass ich Handgesten zur Drohnensteuerung testete, sondern schloss richtig, dass die Drohne als Kamera fungierte und daher im Filmmaterial unsichtbar war. Ich wette, eine ganze Reihe von Menschen – einschließlich, seien wir ehrlich, meiner Nachbarn – hätten das nicht gecheckt. Es analysierte auch erfolgreich mein Glühvideo, identifizierte Abschnitte und spezifische verbale Punkte, und verstand den Lauf-und-Rede-Teil gut genug, um Ort und Kommentarthemen zu notieren.

Wo Gemini strauchelte, war der Übergang vom Video-Verständnis zur Bildgenerierung. Als ich es bat, ein neues YouTube-Thumbnail basierend auf dem Videoinhalt und meinem bestehenden Stil zu erstellen, erfand es einen bärtigen Mann (nicht ich, leider) und buchstabierte „FIRE“ als „FCIRE“. So nah und doch so fern vom Thumbnail-Ruhm.

Dann ist da noch ChatGPT, eine klassische Gute-Nachrichten-Schlechte-Nachrichten-Situation. Die schlechte Nachricht: ChatGPT selbst konnte keine YouTube-Links lesen, und obwohl es theoretisch Videos verarbeiten kann, müssen diese unter 500 MB liegen. Meine waren es natürlich nicht. Die gute Nachricht: Kombiniert man es mit OpenAIs Codex-Agent, wird es interessant. Codex las beide lokalen Dateien und identifizierte den Drohnentest korrekt als „einen Drohnentest im Hinterhof“. Für die Lauf-und-Rede-MOV zögerte es zunächst, bat dann höflich um Erlaubnis, Python-Code und Bibliotheken für die Audio-Transkription zu installieren. Nachdem es das getan hatte, verstand es den Kontext perfekt. Als Codex den YouTube-Stream nicht direkt ansehen konnte, bat ich es, das Video lokal herunterzuladen – und es schrieb automagisch ein Python-Skript, installierte Bibliotheken und erfand spontan Video-Download-Technologie.

Ein Thumbnail zu erstellen erforderte, dass ich als Vermittler zwischen Codex und ChatGPT fungierte. Codex wählte einen Frame und schrieb einen Prompt; ChatGPT generierte das Bild. Das Ergebnis war besser als das von Gemini – es verwendete mein tatsächliches Gesicht und griff mein Farbschema auf (Weiß, Gelb, Schwarz) – aber es machte aus der Aluminiumstange ein Vierkantrohr statt Flachmaterial, platzierte Sharpie-Markierungen in falschen Winkeln und gab der Biegung einen kriminell scharfen rechten Winkel. Ein paar korrigierende Prompts brachten es näher, obwohl ich Thumbnails immer noch lieber von Hand mache.

Bemerkenswerte Erkenntnisse: Sowohl Gemini als auch das ChatGPT/Codex-Duo interpretierten Videos in etwa zwei bis drei Minuten – weit weniger als die tatsächlichen 15 Minuten.

Ich ließ drei KI meine Videos schauen, damit du es nicht musst – eine hat tatsächlich aufgepasst

Nachrichten in deinem Posteingang.