솔직히 말해서, 우리 대부분은 오래된 유튜브 영상을 다시 볼 시간이 없습니다. 다행히 인공지능이 그 실존적 공포를 대신 처리해 줍니다. 최근 테스트에서 저는 ChatGPT, Claude, Gemini에게 비디오에서 무슨 일이 일어나는지 실제로 이해하는 고된 작업을 시켰습니다 - 유튜브 링크와 로컬 파일 모두에서요. 결과는 '인상적으로 통찰력 있음'부터 '죄송합니다, 그건 할 수 없습니다, 데이브'까지 다양했습니다.

각 AI에 세 개의 비디오를 제공했습니다: 어닐링이라는 과학적 과정에 대한 유튜브 설명 영상(네, 제가 그렇게 흥미진진합니다), DJI Neo 2 드론을 향해 손짓하는 제 모습의 무음 MP4, 그리고 제 유튜브 업로드 전략에 대해 걸어가며 말하는 1.65GB MOV 파일 - 메타데이터도, 대본도 없이 순수하고 때묻지 않은 저 자신입니다. 프롬프트는 간단명료했습니다: "이 비디오를 볼 수 있나요?" 왜냐하면 '이해'나 '요약'을 요구하면 디지털 너구리처럼 메타데이터를 찾아 헤매게 만들기 때문입니다.

먼저 나쁜 소식을 전하죠. Claude는 - 앱이든 웹 인터페이스든 - 예의 바르지만 단호한 벽이었습니다. 비디오 콘텐츠를 직접 볼 수 없고, 시각적 또는 오디오 프레임을 처리할 수 없으며, 일반적으로 토스터 정도의 비디오 시청 능력을 가지고 있다고 말해주었습니다. 월 100달러의 Claude Max는 아주 말 잘하는 거절을 사는 것 같군요.

반면 Gemini는 반에서 우등생이었습니다. 웹 인터페이스는 제가 던진 모든 것 - 유튜브 URL, 625MB MP4, 그리고 거대한 1.65GB MOV 파일 - 을 앱 없이 브라우저 탭에서 바로 처리했습니다. 가장 인상적인 시연은 무음 드론 테스트 비디오였는데, 오디오도 없고 제가 마당에 서서 팔을 흔드는 것 외에 맥락도 없습니다. Gemini는 제가 드론 제어를 위한 손 제스처를 테스트하고 있다는 것을 알아냈을 뿐만 아니라 드론이 카메라 역할을 하고 있어 영상에 보이지 않는다는 것도 정확히 추론했습니다. 솔직히 말해서 많은 인간들 - 제 이웃들도 포함해서 - 은 눈치채지 못했을 겁니다. 또한 제 어닐링 비디오를 성공적으로 분석하여 섹션과 특정 구두 포인트를 식별했고, 걸어가며 말하는 비디오에서 위치와 논평 주제를 충분히 이해했습니다.

Gemini가 실수한 부분은 비디오 이해에서 이미지 생성으로의 전환이었습니다. 비디오 콘텐츠와 제 기존 스타일을 바탕으로 새 유튜브 썸네일을 만들어 달라고 했을 때, 수염 난 남자(슬프게도 제가 아닌)를 발명하고 'FIRE'를 'FCIRE'로 철자했습니다. 썸네일 영광에 너무 가까웠지만 너무 멀었습니다.

그리고 ChatGPT가 있습니다. 전형적인 좋은 소식-나쁜 소식 상황입니다. 나쁜 소식: ChatGPT 자체는 유튜브 링크를 읽을 수 없었고, 이론적으로 비디오를 처리할 수 있지만 500MB 미만이어야 합니다. 제 것은 당연히 그렇지 않았습니다. 좋은 소식: OpenAI의 Codex 에이전트와 짝을 이루면 상황이 흥미로워집니다. Codex는 두 로컬 파일을 모두 읽고 드론 테스트를 '뒷마당 드론 테스트 샷'으로 정확히 식별했습니다. 걸어가며 말하는 MOV의 경우 처음에는 망설이다가 오디오 전사를 위해 Python 코드와 라이브러리를 설치해도 되는지 정중히 물었습니다. 일단 설치하고 나면 맥락을 완벽히 이해했습니다. Codex가 유튜브 스트림을 직접 볼 수 없었을 때, 로컬로 비디오를 다운로드해 달라고 요청했고 - 자동으로 Python 스크립트를 작성하고, 라이브러리를 설치하고, 즉석에서 비디오 다운로드 기술을 발명했습니다.

썸네일을 만들려면 Codex와 ChatGPT 사이에서 중개자 역할을 해야 했습니다. Codex가 프레임을 선택하고 프롬프트를 작성했고, ChatGPT가 이미지를 생성했습니다. 결과는 Gemini보다 나았습니다 - 제 실제 얼굴을 사용하고 제 색 구성표(흰색, 노란색, 검은색)를 반영했지만 - 알루미늄 바를 평평한 재료 대신 사각 튜브로 만들고, 샤피 마크를 잘못된 각도에 배치하고, 굽힘에 지나치게 날카로운 직각을 주었습니다. 몇 번의 수정 프롬프트로 더 가까워졌지만, 여전히 썸네일은 직접 만드는 쪽을 선호합니다.

주목할 점: Gemini와 ChatGPT/Codex 듀오 모두 각 비디오를 약 2~3분 만에 해석했습니다 - 실제 15분 분량의 비디오보다 훨씬 짧았습니다.