我让三个AI看我的视频，所以你不用看了——有一个还真认真看了

我让三个AI看我的YouTube视频和本地文件，结果Gemini表现最佳，能理解无声无人机测试；ChatGPT需要Codex辅助才能处理大文件；Claude则礼貌地拒绝观看。

老实说：我们大多数人都有比看自己过去的YouTube视频更重要的事。幸运的是，人工智能来替我们处理这种存在主义焦虑了。在最近的一次测试中，我让ChatGPT、Claude和Gemini接受了艰巨的任务：真正理解视频里发生了什么——无论是YouTube链接还是本地文件。结果从“令人印象深刻地敏锐”到“对不起，我做不到，戴夫”不等。

我给每个AI喂了三个视频：一个关于退火科学过程的YouTube讲解视频（是的，我就这么刺激），一个我对着DJI Neo 2无人机打手势的无声MP4，以及一个1.65GB的MOV文件，内容是我边走边聊我的YouTube发布策略——没有元数据，没有文字记录，只有纯粹、未掺杂质的我。提示词简单得令人耳目一新：“你能看这个视频吗？”因为显然，让它们“理解”或“总结”只会让它们像数字浣熊一样去翻找元数据。

先把坏消息说了吧。Claude——无论是在应用还是网页界面上——都是一堵礼貌但坚定的砖墙。它用各种方式告诉我，它不能直接观看视频内容，不能处理视觉或音频帧，总的来说，它的视频观看能力相当于一台烤面包机。Claude Max，每月100美元，显然买来的是一个非常彬彬有礼的拒绝。

另一方面，Gemini是班里的学霸。网页界面处理了我扔给它的所有东西——YouTube网址、一个625MB的MP4，以及那个巨大的1.65GB MOV文件——就在浏览器标签页里，无需应用。最令人印象深刻的是无声无人机测试视频，它没有音频，也没有背景信息，只有我站在院子里挥舞手臂。Gemini不仅猜出我在测试无人机的手势控制，还正确推断出无人机充当了摄像头，因此在画面中不可见。我敢打赌，相当一部分人类——包括，老实说，我的邻居——都不会意识到这一点。它还成功解析了我的退火视频，识别出各个部分和具体的口头要点，并且对边走边聊视频的理解足以指出地点和评论主题。

Gemini的失误在于从视频理解到图像生成的过渡。当我要求它根据视频内容和我的现有风格创建新的YouTube缩略图时，它决定发明一个 bearded man（不是我，可惜），并把“FIRE”拼成了“FCIRE”。如此接近，却又离缩略图的荣耀如此遥远。

然后是ChatGPT，这是一个经典的好消息-坏消息情况。坏消息：ChatGPT本身无法读取YouTube链接，虽然理论上它可以处理视频，但视频必须小于500MB。我的视频当然不是。好消息：把它和OpenAI的Codex代理配对，事情就变得有趣了。Codex读取了两个本地文件，正确地将无人机测试识别为“后院无人机测试镜头”。对于边走边聊的MOV文件，它最初犹豫了一下，然后礼貌地请求允许安装Python代码和库进行音频转录。一旦完成，它就完美地理解了上下文。当Codex无法直接观看YouTube流时，我要求它把视频下载到本地——它自动编写了一个Python脚本，安装了库，并即兴发明了视频下载技术。

创建缩略图需要我在Codex和ChatGPT之间充当中间人。Codex选择了一个帧并编写了提示词；ChatGPT生成了图像。结果比Gemini的好——它用了我的真实面孔，并捕捉到了我的配色方案（白色、黄色、黑色）——但它把铝条做成了方形管而不是扁平材料，把Sharpie标记放在了错误的角度，并给弯曲处一个极其尖锐的直角。经过几次修正提示，它更接近了，不过我仍然更喜欢手动制作缩略图。

值得注意的收获：Gemini和ChatGPT/Codex组合各自用大约两到三分钟解读了视频——远少于实际的15分钟视频长度。

我让三个AI看我的视频，所以你不用看了——有一个还真认真看了

新闻直达您的邮箱。