На этой неделе OpenAI представила ChatGPT Images 2.0 — свой новый движок генерации изображений. Ключевое улучшение — переход от создания «украшений» (термин OpenAI) к полноценным графическим макетам, включая детализированный текст.
У меня был ранний доступ к предрелизной версии. Она работала довольно хорошо, но постоянно путала логотип ZDNET. Теперь, когда продукт официально выпущен, я провожу его глубокое тестирование на широком спектре задач.
Images 2.0 доступна всем тарифам ChatGPT, но более продвинутые языковые функции — только платным подписчикам, использующим модель Thinking. Все тесты я провожу с аккаунтом ChatGPT Plus с включённым Thinking.
Начнём с упражнений с брендингом ZDNET. Вместо того чтобы просто загружать страницы ZDNET и заставлять его искать логотип на странице, я создал отдельное изображение логотипа ZDNET и загружал его с каждым запросом. Это помогло колоссально. [Одно замечание: ZDNET не разрешает OpenAI сканировать свои страницы. Ziff Davis, материнская компания ZDNET, подала в апреле 2025 года иск против OpenAI, утверждая, что та нарушила авторские права Ziff Davis при обучении и эксплуатации своих ИИ-систем. Поэтому я использовал расширение Chrome, чтобы делать полноэкранные скриншоты статей, которые хотел протестировать с Images 2.0. Так ChatGPT смог их прочитать.]
Моей отправной точкой была статья, которую я ранее написал об Images 2.0. Я дал ChatGPT такой запрос: «Создай подробную и яркую инфографику этой статьи, используя фирменный стиль ZDNET и прикреплённый логотип ZDNET». Логотип не только правильный, но и цвета идеально подходят для ZDNET. Но где изображение действительно блещет — так это в использовании текста. Весь текст корректен, даже мелкий текст под углом на изображении.
Затем я решил вернуться к задаче со скетчноутами, которую я дал Google Nano Banana несколько месяцев назад. Тогда задание было создать скетчноут версии Билля о правах США. Nano Banana отлично справился с изображениями, но мне приходилось снова и снова (и снова) убеждать его правильно написать текст. Для ChatGPT Images 2.0 я немного повысил ставки. Я хотел скетчноуты, но в стиле бренда ZDNET. Вот первый запрос: «Сделай мне скетчноут Билля о правах США. Используй стиль логотипа ZDNET и сделай скетчноуты в стиле ZDNET». Это изображение слева. Вот второй запрос: «Включи логотип ZDNET и добавь больше неоновых цветов, возможно, на чёрном фоне». Это изображение справа. Во-первых, обратите внимание, что текст правильный. Нет дубликатов. Ничего не пропущено. Уже это на голову выше производительности Nano Banana. Обе версии соответствуют стилю ZDNET. Единственное, что меня не радует, — это то, что логотип ZDNET на втором изображении выглядит втиснутым. Но даже так логотип правильный, и, вероятно, можно сделать ещё несколько проходов с запросами, чтобы разместить его лучше.
Но теперь мы подошли к невынужденной ошибке, которую выявило моё тестирование. Я попросил Images 2.0 преобразовать мою статью о сравнении ИИ-конструкторов сайтов в инфографику. Он создал довольно удобоваримую, хотя и несколько перегруженную инфографику. Он даже сходил в интернет и добавил информацию, которой не было в статье, например базовые цены. Однако он также добавил несколько фактических ошибок: звёздные рейтинги были неверны, одно описание продукта было неправильным, и он выдумал компанию под названием «AI Builders», которой не существует. Справедливости ради, это ошибки, которые мог бы допустить штатный графический дизайнер-человек в первом черновике. Когда я повторно задал запрос Images 2.0 с исправлениями (кроме звёздных рейтингов, которые я не исправлял на втором изображении), он корректно модифицировал инфографику с более подходящей информацией.
Этот релиз Images 2.0 — огромное улучшение по сравнению с предыдущими версиями. Версия ChatGPT Images, которую я рассматривал в прошлом году, была впечатляющей, особенно для реконтекстуализации изображений. Эта новая версия, которая может интерпретировать реальный контент и затем создавать изображения, — огромный скачок по сравнению с предыдущими сборками. Более того, она может выдавать