Na początku tego tygodnia OpenAI zaprezentowało ChatGPT Images 2.0, swój nowy silnik generowania obrazów. Kluczową zmianą jest skok funkcjonalności od tworzenia „dekoracji” (termin OpenAI) do pełnostronicowych grafik, w tym szczegółowego tekstu.
Miałem wczesny dostęp do wersji przedpremierowej. Działała całkiem nieźle, ale ciągle psuła logo ZDNET. Teraz, gdy produkt został oficjalnie wydany, poddaję go dogłębnemu testowi w szerokim zakresie wyzwań.
Images 2.0 jest dostępny dla wszystkich poziomów ChatGPT, ale bardziej zaawansowane funkcje językowe są dostępne tylko dla płatnych subskrypcji, które mogą korzystać z modelu Thinking. Wszystkie testy przeprowadzam na koncie ChatGPT Plus z włączoną opcją Thinking.
Zacznijmy od ćwiczeń z brandingiem ZDNET. Zamiast po prostu przesyłać strony ZDNET i kazać mu znaleźć logo na stronie, stworzyłem samodzielny obraz logo ZDNET i przesłałem go z każdym promptem. To wydawało się ogromnie pomóc. [Szybka uwaga: ZDNET nie zezwala OpenAI na skrobanie swoich stron. Ziff Davis, firma macierzysta ZDNET, złożyła w kwietniu 2025 roku pozew przeciwko OpenAI, zarzucając naruszenie praw autorskich Ziff Davis w szkoleniu i działaniu systemów AI. Użyłem więc rozszerzenia Chrome, aby zrobić zrzuty ekranu całych stron artykułów, które chciałem przetestować z Images 2.0. W ten sposób ChatGPT mógł je odczytać.]
Moim punktem wyjścia był artykuł, który wcześniej napisałem o Images 2.0. Podałem ChatGPT ten prompt: „Stwórz szczegółową i żywą infografikę tego artykułu, używając stylu marki ZDNET i załączonego logo ZDNET.” Logo jest poprawne, a kolorystyka idealna dla ZDNET. Ale obraz naprawdę błyszczy w użyciu tekstu. Cały tekst jest poprawny, nawet maleńki tekst pod kątem na obrazie.
Następnie postanowiłem wrócić do wyzwania sketchnotes, które zadałem Google Nano Banana kilka miesięcy temu. Zadanie polegało na stworzeniu wersji sketchnotes amerykańskiej Karty Praw. Nano Banana świetnie poradziło sobie z obrazami, ale musiałem próbować w kółko, aby przekonać je do poprawnego sformułowania tekstu. Dla ChatGPT Images 2.0 podniosłem stawkę. Chciałem sketchnotes, ale w stylu ZDNET. Oto pierwszy prompt: „Zrób mi sketchnote amerykańskiej Karty Praw. Użyj stylu logo ZDNET i zrób sketchnotes w stylu ZDNET.” To obraz po lewej. Oto drugi prompt: „Dołącz logo ZDNET i dodaj więcej neonowych kolorów, może na czarnym tle.” To obraz po prawej. Po pierwsze, tekst jest poprawny. Nie ma duplikatów. Nic nie brakuje. To już jest o niebo lepsze niż Nano Banana. Obie wersje pasują do stylu ZDNET. Jedyną rzeczą, która mi nie odpowiada, jest to, że logo ZDNET wygląda na wciśnięte na drugim obrazie. Mimo to logo jest poprawne i pewnie mógłbym zrobić jeszcze kilka promptów, aby umieścić je lepiej.
Ale teraz dochodzimy do błędu, który ujawnił mój zestaw testowy. Poprosiłem Images 2.0 o przekształcenie mojego artykułu o pojedynku kreatorów stron AI w infografikę. Stworzyło całkiem użyteczną, choć nieco przeładowaną infografikę. Poszło nawet do internetu i dodało informacje, których nie było w artykule, jak ceny podstawowe. Jednak dodało też kilka błędów merytorycznych: oceny w gwiazdkach były błędne, jeden opis produktu był nieprawidłowy, a także wymyśliło firmę o nazwie „AI Builders”, która nie istnieje. Trzeba przyznać, że są to błędy, które mógłby popełnić ludzki grafik w pierwszej wersji. Kiedy ponownie podałem prompt z poprawkami (oprócz ocen w gwiazdkach, których nie poprawiłem w drugim obrazie), Images 2.0 poprawnie zmodyfikowało infografikę z bardziej odpowiednimi informacjami.
To wydanie Images 2.0 to ogromna poprawa w porównaniu z poprzednimi wersjami. Wersja ChatGPT Images, którą widziałem w zeszłym roku, była imponująca, zwłaszcza w rekontekstualizacji obrazów. Ta nowa wersja, która potrafi interpretować rzeczywistą treść, a następnie tworzyć obrazy, to ogromny skok w porównaniu z poprzednimi wersjami. Co więcej, potrafi dostarczyć