本周早些时候,OpenAI发布了ChatGPT Images 2.0,这是其新的图像生成引擎。这次发布的关键在于功能从创建“装饰品”(OpenAI的术语)跃升到全页图形,包括详细的文字。

我提前拿到了预发布版本。它运行得相当不错,但在ZDNET标志上总是出错。现在产品正式发布,我对其进行了深入测试,涵盖了一系列挑战。

Images 2.0对所有ChatGPT用户开放,但更强大的语言功能仅对付费用户开放,他们可以使用Thinking模型。我使用开启了Thinking的ChatGPT Plus账户运行所有这些测试。

让我们从ZDNET品牌练习开始。我没有直接上传ZDNET页面让它找到标志,而是创建了一个独立的ZDNET标志图像,并在每次提示时上传。这似乎帮助很大。[快速说明:ZDNET不允许OpenAI抓取其页面。ZDNET的母公司Ziff Davis在2025年4月对OpenAI提起诉讼,指控其在训练和运行AI系统时侵犯了Ziff Davis的版权。所以我使用Chrome扩展程序截取了我想要测试的文章的全屏截图。这样ChatGPT才能读取它们。]

我的起点是我之前写的关于Images 2.0的文章。我向ChatGPT输入了提示:“使用ZDNET品牌风格和附带的ZDNET标志,创建这篇文章的详细而生动的信息图。”不仅标志正确,而且配色对ZDNET来说非常完美。但图像真正出色的是文字的使用。所有文字都是正确的,即使是图像中倾斜的小字。

接下来,我决定重新审视几个月前我给Google的Nano Banana的草图笔记挑战。当时的任务是创建美国权利法案的草图笔记版本。Nano Banana在图像方面做得很好,但我不得不一遍又一遍(又一遍)地尝试说服它把文字写对。对于ChatGPT Images 2.0,我稍微提高了赌注。我想要草图笔记,但要以ZDNET的品牌风格呈现。这是第一个提示:“给我制作一份美国权利法案的草图笔记。使用ZDNET标志风格,并以ZDNET风格制作草图笔记。”这是左边的图像。这是第二个提示:“包含ZDNET标志,并添加更多霓虹色,也许在黑色背景上。”这是右边的图像。首先,注意文字是正确的。没有重复。没有遗漏。这已经远远超过了Nano Banana的表现。两个版本都符合ZDNET的风格。唯一让我不满意的是,在第二张图像中,ZDNET标志看起来像是被硬塞进去的。即便如此,标志是正确的,我可能再做几次提示就能把它放得更好。

但现在我们遇到了测试中暴露的非受迫性错误。我让Images 2.0将我的AI网站构建器对决文章转换为信息图。它生成了一个相当可用但有点杂乱的信息图。它甚至上网添加了文章中没有的信息,比如基础定价。然而,它也添加了一些事实错误:星级评分错了,一个产品描述不正确,还编造了一家名为“AI Builders”的不存在的公司。公平地说,这些都是内部人类平面设计师在第一稿中可能犯的错误。当我用修正信息重新提示Images 2.0时(除了星级评分,我在第二张图像中没有修正),它确实正确地修改了信息图,提供了更合适的信息。

这次Images 2.0的发布是之前版本的巨大改进。我去年看到的ChatGPT Images版本令人印象深刻,尤其是在重新语境化图像方面。这个新版本能够解释实际内容然后创建图像,是之前版本的巨大飞跃。更重要的是,它可以交付