Seamos honestos: la mayoría tenemos mejores cosas que hacer que ver nuestros propios videos viejos de YouTube. Afortunadamente, la inteligencia artificial está aquí para manejar esa angustia existencial por nosotros. En una prueba reciente, sometí a ChatGPT, Claude y Gemini a la agotadora tarea de entender realmente lo que sucede en un video, tanto desde enlaces de YouTube como desde archivos locales. Los resultados variaron desde "impresionantemente perceptivo" hasta "Lo siento, no puedo hacer eso, Dave".

Alimenté a cada IA con tres videos: un explicativo de YouTube sobre el proceso científico de recocido (sí, soy así de emocionante), un MP4 silencioso de mí gesticulando frente a un dron DJI Neo 2, y un archivo MOV de 1.65 GB de mí caminando y hablando sobre mi estrategia de publicación en YouTube, sin metadatos, sin transcripciones, solo yo puro y sin adulterar. La instrucción fue refrescantemente simple: "¿Puedes ver este video?" Porque aparentemente pedirles que "entiendan" o "resuman" solo las hace buscar metadatos como mapaches digitales.

Primero lo malo. Claude, ya sea en la app o en la interfaz web, fue un muro de ladrillos educado pero firme. Me informó, en pocas palabras, que no puede ver contenido de video directamente, no puede procesar fotogramas visuales o de audio, y en general tiene la misma capacidad para ver videos que una tostadora. Claude Max, a $100 por mes, aparentemente te compra un rechazo muy bien expresado.

Gemini, por otro lado, fue el sobresaliente de la clase. La interfaz web manejó todo lo que le lancé: URLs de YouTube, un MP4 de 625 MB y ese enorme archivo MOV de 1.65 GB, directamente en una pestaña del navegador, sin necesidad de app. La demostración más impresionante fue el video de prueba del dron silencioso, que no contiene audio ni contexto aparte de mí parado en un jardín moviendo los brazos. Gemini no solo descubrió que estaba probando gestos de mano para controlar el dron, sino que dedujo correctamente que el dron actuaba como cámara y por lo tanto era invisible en el metraje. Apuesto a que un buen número de humanos, incluidos, seamos honestos, mis vecinos, no lo habrían notado. También analizó con éxito mi video de recocido, identificando secciones y puntos verbales específicos, y entendió el video de caminar y hablar lo suficiente como para notar la ubicación y los temas de comentarios.

Donde Gemini tropezó fue en la transición de comprensión de video a generación de imágenes. Cuando le pedí que creara una nueva miniatura de YouTube basada en el contenido del video y mi estilo existente, decidió inventar un hombre barbudo (no yo, lamentablemente) y deletreó "FIRE" como "FCIRE". Tan cerca y, sin embargo, tan lejos de la gloria de las miniaturas.

Luego está ChatGPT, que es un clásico caso de buenas y malas noticias. La mala: ChatGPT no pudo leer enlaces de YouTube y, aunque teóricamente puede procesar videos, deben ser menores de 500 MB. Los míos, por supuesto, no lo eran. La buena: combínalo con el agente Codex de OpenAI y las cosas se ponen interesantes. Codex leyó ambos archivos locales, identificando correctamente la prueba del dron como "una prueba de dron en el patio trasero". Para el MOV de caminar y hablar, inicialmente se resistió, luego pidió permiso cortésmente para instalar código Python y bibliotecas para transcripción de audio. Una vez que lo hizo, entendió el contexto perfectamente. Cuando Codex no pudo ver la transmisión de YouTube directamente, le pedí que descargara el video localmente, y automágicamente escribió un script de Python, instaló bibliotecas e inventó tecnología improvisada de descarga de videos sobre la marcha.

Crear una miniatura requirió que yo hiciera de intermediario entre Codex y ChatGPT. Codex eligió un fotograma y escribió una instrucción; ChatGPT generó la imagen. El resultado fue mejor que el de Gemini: usó mi cara real y captó mi esquema de colores (blanco, amarillo, negro), pero convirtió la barra de aluminio en un tubo cuadrado en lugar de material plano, colocó las marcas de Sharpie en ángulos incorrectos y le dio a la curva un ángulo recto criminalmente afilado. Algunas instrucciones correctivas lo acercaron más, aunque sigo prefiriendo hacer miniaturas a mano.

Conclusiones notables: tanto Gemini como el dúo ChatGPT/Codex interpretaron los videos en unos dos o tres minutos cada uno, mucho menos de los 15 minutos reales.