Sejamos honestos: a maioria de nós tem coisas melhores para fazer do que assistir aos nossos próprios vídeos antigos do YouTube. Felizmente, a inteligência artificial está aqui para lidar com essa angústia existencial por nós. Em um teste recente, submeti ChatGPT, Claude e Gemini à árdua tarefa de realmente entender o que acontece em um vídeo — tanto de links do YouTube quanto de arquivos locais. Os resultados variaram de "impressionantemente perceptivo" a "Desculpe, não posso fazer isso, Dave."

Alimentei cada IA com três vídeos: um explicador do YouTube sobre o processo científico de recozimento (sim, sou tão empolgante assim), um MP4 silencioso de mim gesticulando para um drone DJI Neo 2, e um arquivo MOV de 1,65 GB de mim andando e falando sobre minha estratégia de postagem no YouTube — sem metadados, sem transcrições, apenas eu puro e sem adulteração. O prompt foi refrescantemente simples: "Você pode assistir a este vídeo?" Porque aparentemente pedir para "entender" ou "resumir" só faz com que eles saiam caçando metadados como guaxinins digitais.

Vamos tirar as más notícias do caminho primeiro. Claude — seja no aplicativo ou na interface web — foi uma parede de tijolos educada, mas firme. Ele me informou, em outras palavras, que não pode assistir a conteúdo de vídeo diretamente, não pode processar quadros visuais ou de áudio e, no geral, tem toda a capacidade de assistir vídeos de uma torradeira. Claude Max, a US$ 100 por mês, aparentemente compra uma recusa muito bem-educada.

Gemini, por outro lado, foi o overachiever da turma. A interface web lidou com tudo que joguei nele — URLs do YouTube, um MP4 de 625 MB e aquele arquivo MOV enorme de 1,65 GB — diretamente em uma aba do navegador, sem necessidade de aplicativo. A demonstração mais impressionante foi o vídeo de teste do drone silencioso, que não contém áudio nem contexto além de mim parado no quintal acenando os braços. Gemini não só descobriu que eu estava testando gestos manuais para controle do drone, mas deduziu corretamente que o drone estava atuando como câmera e, portanto, era invisível na filmagem. Aposto que um bom número de humanos — incluindo, sejamos honestos, meus vizinhos — não teria percebido isso. Ele também analisou com sucesso meu vídeo de recozimento, identificando seções e pontos verbais específicos, e entendeu o vídeo de caminhada e conversa bem o suficiente para notar locais e tópicos de comentários.

Onde Gemini tropeçou foi na transição da compreensão de vídeo para a geração de imagens. Quando pedi para criar uma nova miniatura do YouTube com base no conteúdo do vídeo e no meu estilo existente, ele decidiu inventar um homem barbudo (não eu, infelizmente) e soletrou "FIRE" como "FCIRE". Tão perto, e ainda assim tão longe da glória das miniaturas.

Depois tem o ChatGPT, que é um clássico caso de boas-notícias-más-notícias. A má notícia: o próprio ChatGPT não conseguia ler links do YouTube e, embora teoricamente possa processar vídeos, eles precisam ter menos de 500 MB. Os meus, claro, não tinham. A boa notícia: combine-o com o agente Codex da OpenAI, e as coisas ficam interessantes. O Codex leu ambos os arquivos locais, identificando corretamente o teste do drone como "um teste de drone no quintal". Para o MOV de caminhada e conversa, ele inicialmente hesitou, depois pediu educadamente permissão para instalar código Python e bibliotecas para transcrição de áudio. Depois que fez isso, entendeu o contexto perfeitamente. Quando o Codex não conseguiu assistir ao stream do YouTube diretamente, pedi que baixasse o vídeo localmente — e ele automaticamente escreveu um script Python, instalou bibliotecas e inventou tecnologia improvisada de download de vídeo na hora.

Criar uma miniatura exigiu que eu atuasse como intermediário entre o Codex e o ChatGPT. O Codex escolheu um quadro e escreveu um prompt; o ChatGPT gerou a imagem. O resultado foi melhor que o do Gemini — ele usou meu rosto real e captou meu esquema de cores (branco, amarelo, preto) — mas transformou a barra de alumínio em tubo quadrado em vez de material chato, colocou marcas de Sharpie em ângulos errados e deu à dobra um ângulo reto criminosamente afiado. Alguns prompts corretivos chegaram mais perto, embora eu ainda prefira fazer miniaturas manualmente.

Conclusões notáveis: tanto o Gemini quanto a dupla ChatGPT/Codex interpretaram vídeos em cerca de dois a três minutos cada — muito menos do que os 15 minutos reais.