Laten we eerlijk zijn: de meesten van ons hebben betere dingen te doen dan onze eigen oude YouTube-video's te bekijken. Gelukkig is kunstmatige intelligentie er om die existentiële angst voor ons te verwerken. In een recente test onderwierp ik ChatGPT, Claude en Gemini aan de slopende taak om daadwerkelijk te begrijpen wat er in een video gebeurt - zowel via YouTube-links als lokale bestanden. De resultaten varieerden van 'indrukwekkend scherpzinnig' tot 'sorry, Dave, dat kan ik niet.'
Ik voerde elke AI drie video's: een YouTube-uitleg over het wetenschappelijke proces van gloeien (ja, zo spannend ben ik), een stille MP4 van mij die gebaren maakte naar een DJI Neo 2-drone, en een 1,65 GB MOV-bestand van mij die wandelde en praatte over mijn YouTube-poststrategie - geen metadata, geen transcripten, gewoon pure, onvervalste ik. De opdracht was verfrissend eenvoudig: 'Kun je deze video bekijken?' Want blijkbaar zorgt vragen om te 'begrijpen' of 'samenvatten' ervoor dat ze op jacht gaan naar metadata als digitale wasberen.
Laten we eerst het slechte nieuws uit de weg ruimen. Claude - zowel in de app als op de webinterface - was een beleefde maar stevige bakstenen muur. Het vertelde me, in zoveel woorden, dat het geen video-inhoud direct kan bekijken, geen visuele of audioframes kan verwerken, en over het algemeen evenveel videokijkcapaciteit heeft als een broodrooster. Claude Max, voor $100 per maand, koopt je blijkbaar een zeer welbespraakte weigering.
Gemini daarentegen was de overpresteerder van de klas. De webinterface verwerkte alles wat ik erin gooide - YouTube-URL's, een 625 MB MP4 en dat enorme 1,65 GB MOV-bestand - rechtstreeks in een browsertabblad, zonder app. De meest indrukwekkende demonstratie was de stille drone-testvideo, die geen audio bevat en geen andere context dan ik die in een tuin sta en met mijn armen zwaai. Gemini begreep niet alleen dat ik handgebaren testte voor dronebesturing, maar leidde ook correct af dat de drone als camera fungeerde en dus onzichtbaar was in de beelden. Ik wed dat een flink aantal mensen - inclusief, laten we eerlijk zijn, mijn buren - dat niet hadden doorgehad. Het verwerkte ook met succes mijn gloeivideo, identificeerde secties en specifieke verbale punten, en begreep de wandel-en-praat-video goed genoeg om locatie en commentaaronderwerpen te noteren.
Waar Gemini struikelde, was bij de overgang van videobegrip naar beeldgeneratie. Toen ik het vroeg om een nieuwe YouTube-thumbnail te maken op basis van de video-inhoud en mijn bestaande stijl, besloot het een bebaarde man te verzinnen (niet ik, helaas) en spelde 'FIRE' als 'FCIRE'. Zo dichtbij, en toch zo ver van thumbnail-glorie.
Dan is er ChatGPT, een klassiek goed-nieuws-slecht-nieuws-verhaal. Het slechte nieuws: ChatGPT zelf kon geen YouTube-links lezen, en hoewel het theoretisch video's kan verwerken, moeten ze onder de 500 MB zijn. De mijne waren dat natuurlijk niet. Het goede nieuws: combineer het met OpenAI's Codex-agent, en dingen worden interessant. Codex las beide lokale bestanden, identificeerde de drone-test correct als 'een drone-test in de achtertuin'. Voor de wandel-en-praat-MOV aarzelde het eerst, vroeg toen beleefd toestemming om Python-code en bibliotheken te installeren voor audiotranscriptie. Toen het dat eenmaal deed, begreep het de context perfect. Toen Codex de YouTube-stream niet direct kon bekijken, vroeg ik het om de video lokaal te downloaden - en het schreef automagisch een Python-script, installeerde bibliotheken en bedacht ter plekke geïmproviseerde video-downloadtechnologie.
Het maken van een thumbnail vereiste dat ik als tussenpersoon fungeerde voor Codex en ChatGPT. Codex koos een frame en schreef een prompt; ChatGPT genereerde de afbeelding. Het resultaat was beter dan dat van Gemini - het gebruikte mijn eigen gezicht en pikte mijn kleurenschema op (wit, geel, zwart) - maar het maakte van de aluminium staaf een vierkante buis in plaats van plat materiaal, plaatste Sharpie-markeringen onder verkeerde hoeken en gaf de bocht een crimineel scherpe rechte hoek. Een paar corrigerende prompts brachten het dichterbij, hoewel ik thumbnails nog steeds liever met de hand doe.
Opmerkelijke conclusies: zowel Gemini als het ChatGPT/Codex-duo interpreteerden video's in ongeveer twee tot drie minuten elk - veel minder dan de werkelijke 15 minuten durende video's. Het is duidelijk dat AI video kan 'kijken' op een manier die tijd bespaart, maar de nuance van thumbnails en visuele details blijft een uitdaging.