正直に言おう。ほとんどの人は自分の古いYouTube動画を見るより、他にやるべきことがある。幸い、人工知能がその実存的恐怖を代わりに処理してくれる。最近のテストで、ChatGPT、Claude、Geminiに、YouTubeリンクとローカルファイルの両方から動画の内容を実際に理解するという過酷なタスクを課した。結果は「印象的に鋭い」から「すみません、できません、デイブ」まで様々だった。
各AIに3本の動画を与えた:アニーリング(焼きなまし)の科学プロセスを解説するYouTube動画(そう、私はそんなにエキサイティングな人間だ)、DJI Neo 2ドローンに向かってジェスチャーする無音のMP4、そして1.65GBのMOVファイルで、YouTube投稿戦略について歩きながら話す私の姿——メタデータもトランスクリプトもなく、純粋で混じりけのない私だけ。プロンプトはシンプルに「この動画を見られますか?」。なぜなら、「理解」や「要約」を頼むと、デジタルアライグマのようにメタデータを探し回るからだ。
まず悪いニュースを片付けよう。Claudeは——アプリでもウェブインターフェースでも——礼儀正しくも断固とした壁だった。動画コンテンツを直接見ることができず、視覚や音声フレームを処理できず、基本的にトースターと同じ動画視聴能力しかないと、遠回しに教えてくれた。月額100ドルのClaude Maxは、どうやら非常に丁寧な拒否を買えるらしい。
一方、Geminiはクラスの優等生だった。ウェブインターフェースは、YouTube URL、625MBのMP4、あの巨大な1.65GB MOVファイルまで、アプリ不要でブラウザタブ内で処理した。最も印象的だったのは無音のドローン試験動画で、音声も文脈もなく、私が庭で手を振っているだけ。Geminiは私がドローン制御の手ジェスチャーをテストしていると見抜いただけでなく、ドローンがカメラ役であり、映像に映っていないことも正しく推測した。かなりの数の人間——正直言って、隣人も含めて——は気づかなかっただろう。また、アニーリング動画も正しく解析し、セクションや特定の口頭ポイントを識別し、歩きながら話す動画も、場所やコメントのトピックを理解した。
Geminiがつまずいたのは、動画理解から画像生成への移行だった。動画内容と既存のスタイルに基づいて新しいYouTubeサムネイルを作成するよう頼んだところ、ひげを生やした男性(私ではない、残念ながら)を発明し、「FIRE」を「FCIRE」と綴った。あと一歩でサムネイルの栄光に届かなかった。
そしてChatGPT。これは典型的な良いニュースと悪いニュースの話だ。悪いニュース:ChatGPT自体はYouTubeリンクを読めず、理論上は動画を処理できるが、500MB未満でなければならない。私の動画はもちろんそれ以上だった。良いニュース:OpenAIのCodexエージェントと組み合わせると、面白くなる。Codexは両方のローカルファイルを読み取り、ドローン試験を「裏庭のドローン試験のショット」と正しく識別した。歩きながら話すMOVについては、最初はためらったが、音声文字起こしのためにPythonコードとライブラリをインストールする許可を丁寧に求めてきた。一度インストールすると、文脈を完璧に理解した。CodexがYouTubeストリームを直接見られなかったときは、動画をローカルにダウンロードするよう頼んだところ、自動的にPythonスクリプトを書き、ライブラリをインストールし、即席の動画ダウンロード技術をその場で発明した。
サムネイル作成には、CodexとChatGPTの間を取り持つ必要があった。Codexがフレームを選び、プロンプトを書き、ChatGPTが画像を生成した。結果はGeminiより良かった——実際の私の顔を使い、カラースキーム(白、黄、黒)を拾った——しかし、アルミバーを平らな素材ではなく角パイプにし、シャーピーのマークを間違った角度に配置し、曲げ部分に犯罪的なくらい鋭い直角を与えた。修正プロンプトをいくつか送って近づけたが、やはりサムネイルは手作業の方が好きだ。
注目すべき点:GeminiとChatGPT/Codexのコンビは、それぞれ約2〜3分で動画を解釈した——実際の15分の動画よりはるかに短い。