老实说:我们大多数人都有比看自己过去的YouTube视频更重要的事。幸运的是,人工智能来替我们处理这种存在主义焦虑了。在最近的一次测试中,我让ChatGPT、Claude和Gemini接受了艰巨的任务:真正理解视频里发生了什么——无论是YouTube链接还是本地文件。结果从“令人印象深刻地敏锐”到“对不起,我做不到,戴夫”不等。
我给每个AI喂了三个视频:一个关于退火科学过程的YouTube讲解视频(是的,我就这么刺激),一个我对着DJI Neo 2无人机打手势的无声MP4,以及一个1.65GB的MOV文件,内容是我边走边聊我的YouTube发布策略——没有元数据,没有文字记录,只有纯粹、未掺杂质的我。提示词简单得令人耳目一新:“你能看这个视频吗?”因为显然,让它们“理解”或“总结”只会让它们像数字浣熊一样去翻找元数据。
先把坏消息说了吧。Claude——无论是在应用还是网页界面上——都是一堵礼貌但坚定的砖墙。它用各种方式告诉我,它不能直接观看视频内容,不能处理视觉或音频帧,总的来说,它的视频观看能力相当于一台烤面包机。Claude Max,每月100美元,显然买来的是一个非常彬彬有礼的拒绝。
另一方面,Gemini是班里的学霸。网页界面处理了我扔给它的所有东西——YouTube网址、一个625MB的MP4,以及那个巨大的1.65GB MOV文件——就在浏览器标签页里,无需应用。最令人印象深刻的是无声无人机测试视频,它没有音频,也没有背景信息,只有我站在院子里挥舞手臂。Gemini不仅猜出我在测试无人机的手势控制,还正确推断出无人机充当了摄像头,因此在画面中不可见。我敢打赌,相当一部分人类——包括,老实说,我的邻居——都不会意识到这一点。它还成功解析了我的退火视频,识别出各个部分和具体的口头要点,并且对边走边聊视频的理解足以指出地点和评论主题。
Gemini的失误在于从视频理解到图像生成的过渡。当我要求它根据视频内容和我的现有风格创建新的YouTube缩略图时,它决定发明一个 bearded man(不是我,可惜),并把“FIRE”拼成了“FCIRE”。如此接近,却又离缩略图的荣耀如此遥远。
然后是ChatGPT,这是一个经典的好消息-坏消息情况。坏消息:ChatGPT本身无法读取YouTube链接,虽然理论上它可以处理视频,但视频必须小于500MB。我的视频当然不是。好消息:把它和OpenAI的Codex代理配对,事情就变得有趣了。Codex读取了两个本地文件,正确地将无人机测试识别为“后院无人机测试镜头”。对于边走边聊的MOV文件,它最初犹豫了一下,然后礼貌地请求允许安装Python代码和库进行音频转录。一旦完成,它就完美地理解了上下文。当Codex无法直接观看YouTube流时,我要求它把视频下载到本地——它自动编写了一个Python脚本,安装了库,并即兴发明了视频下载技术。
创建缩略图需要我在Codex和ChatGPT之间充当中间人。Codex选择了一个帧并编写了提示词;ChatGPT生成了图像。结果比Gemini的好——它用了我的真实面孔,并捕捉到了我的配色方案(白色、黄色、黑色)——但它把铝条做成了方形管而不是扁平材料,把Sharpie标记放在了错误的角度,并给弯曲处一个极其尖锐的直角。经过几次修正提示,它更接近了,不过我仍然更喜欢手动制作缩略图。
值得注意的收获:Gemini和ChatGPT/Codex组合各自用大约两到三分钟解读了视频——远少于实际的15分钟视频长度。