इस हफ्ते की शुरुआत में, OpenAI ने अपना नया इमेज जनरेशन इंजन ChatGPT Images 2.0 पेश किया। इस रिलीज़ की खास बात यह है कि इसने 'सजावट' (OpenAI का शब्द) बनाने से लेकर पूरे पेज के ग्राफिक्स, जिसमें विस्तृत टेक्स्ट शामिल है, तक की कार्यक्षमता में छलांग लगाई है।

मुझे प्री-रिलीज़ वर्जन तक जल्दी पहुंच मिली थी। यह काफी अच्छा काम कर रहा था, लेकिन ZDNET लोगो पर गड़बड़ करता रहा। अब जब उत्पाद आधिकारिक तौर पर जारी हो गया है, तो मैं इसे कई तरह की चुनौतियों पर गहराई से परख रहा हूं।

Images 2.0 सभी ChatGPT टियर के लिए उपलब्ध है, लेकिन अधिक सक्षम भाषा सुविधाएं केवल भुगतान वाले टियर के लिए उपलब्ध हैं जो थिंकिंग मॉडल का उपयोग कर सकते हैं। मैं ये सभी परीक्षण थिंकिंग चालू करके ChatGPT Plus खाते का उपयोग करके चला रहा हूं।

चलिए ZDNET ब्रांडिंग अभ्यास से शुरू करते हैं। ZDNET पेजों को अपलोड करने और उससे लोगो ढूंढने के बजाय, मैंने ZDNET लोगो की एक स्टैंडअलोन इमेज बनाई और उसे हर प्रॉम्प्ट के साथ अपलोड किया। इससे काफी मदद मिली। [एक त्वरित नोट: ZDNET OpenAI को अपने पेजों को स्क्रैप करने की अनुमति नहीं देता। Ziff Davis, ZDNET की मूल कंपनी, ने अप्रैल 2025 में OpenAI के खिलाफ मुकदमा दायर किया, जिसमें आरोप लगाया गया कि उसने अपने AI सिस्टम को प्रशिक्षित करने और संचालित करने में Ziff Davis के कॉपीराइट का उल्लंघन किया। इसलिए मैंने उन लेखों के फुल-स्क्रीन स्क्रीनशॉट कैप्चर करने के लिए क्रोम एक्सटेंशन का उपयोग किया जिन्हें मैं Images 2.0 के साथ परखना चाहता था। इस तरह ChatGPT उन्हें पढ़ पाया।]

मेरा शुरुआती बिंदु वह लेख था जो मैंने पहले Images 2.0 के बारे में लिखा था। मैंने ChatGPT को यह प्रॉम्प्ट दिया: "ZDNET ब्रांड शैली और संलग्न ZDNET लोगो का उपयोग करके इस लेख का एक विस्तृत और जीवंत इन्फोग्राफिक बनाएं।" न केवल लोगो सही है, बल्कि ZDNET के लिए रंग भी एकदम सही है। लेकिन जहां यह इमेज वास्तव में चमकती है, वह है टेक्स्ट का उपयोग। सारा टेक्स्ट सही है, यहां तक कि इमेज में कोण पर छोटा टेक्स्ट भी।

इसके बाद, मैंने उस स्केचनोट चैलेंज को फिर से देखने का फैसला किया जो मैंने कुछ महीने पहले Google के Nano Banana को दिया था। उस समय का कार्य अमेरिकी बिल ऑफ राइट्स का स्केचनोट संस्करण बनाना था। Nano Banana ने इमेज के साथ बहुत अच्छा काम किया, लेकिन मुझे शब्दों को सही करने के लिए बार-बार (और बार-बार) प्रयास करना पड़ा। ChatGPT Images 2.0 के लिए, मैंने दांव थोड़ा बढ़ा दिया। मुझे स्केचनोट चाहिए थे, लेकिन ZDNET की ब्रांडिंग शैली में। यह पहला प्रॉम्प्ट है: "मुझे अमेरिकी बिल ऑफ राइट्स का एक स्केचनोट बनाएं। ZDNET लोगो शैली का उपयोग करें और स्केचनोट को ZDNET शैली में बनाएं।" यह बाईं ओर की इमेज है। यह दूसरा प्रॉम्प्ट है: "ZDNET लोगो शामिल करें और अधिक नियॉन-शैली के रंग जोड़ें, शायद काले बैकग्राउंड पर।" यह दाईं ओर की इमेज है। पहले, ध्यान दें कि टेक्स्ट सही है। कोई डुप्लिकेट नहीं है। कुछ भी गायब नहीं है। पहले से ही, यह Nano Banana के प्रदर्शन से काफी बेहतर है। दोनों संस्करण ZDNET की शैली में फिट बैठते हैं। केवल एक चीज जिससे मैं खुश नहीं हूं, वह यह है कि दूसरी इमेज में ZDNET लोगो ठूंसा हुआ लग रहा है। फिर भी, लोगो सही है, और मैं शायद इसे बेहतर रखने के लिए कुछ और प्रॉम्प्ट पास कर सकता हूं।

लेकिन अब हम उस अनफोर्सड एरर पर आते हैं जो मेरे परीक्षण सेट ने उजागर किया। मैंने Images 2.0 से मेरे AI वेबसाइट बिल्डर शूटआउट लेख को इन्फोग्राफिक में बदलने के लिए कहा। इसने एक काफी उपयोगी, यद्यपि थोड़ा व्यस्त, इन्फोग्राफिक तैयार किया। यहां तक कि यह इंटरनेट पर गया और वह जानकारी जोड़ी जो मेरे लेख में नहीं थी, जैसे बेस प्राइसिंग। हालांकि, इसने कुछ तथ्यात्मक त्रुटियां भी जोड़ीं: स्टार रेटिंग गलत थीं, एक उत्पाद विवरण गलत था, और इसने 'AI Builders' नामक एक कंपनी बनाई जो मौजूद नहीं है। निष्पक्षता से कहें तो, ये सभी त्रुटियां हैं जो एक इन-हाउस मानव ग्राफिक डिजाइनर पहले ड्राफ्ट में कर सकता है। जब मैंने Images 2.0 को सुधारों के साथ फिर से प्रॉम्प्ट किया (दूसरी इमेज में स्टार रेटिंग को छोड़कर, जिन्हें मैंने सही नहीं किया), तो इसने सही ढंग से इन्फोग्राफिक को अधिक उपयुक्त जानकारी के साथ संशोधित किया।

यह Images 2.0 रिलीज़ पिछले संस्करणों की तुलना में एक बड़ा सुधार है। पिछले साल मैंने जो ChatGPT Images संस्करण देखा था, वह प्रभावशाली था, खासकर इमेज को रीकॉन्टेक्स्टुअलाइज़ करने के लिए। यह नया संस्करण, जो वास्तविक सामग्री की व्याख्या कर सकता है और फिर इमेज बना सकता है, पिछले बिल्ड्स पर एक बड़ी छलांग है। अधिक महत्वपूर्ण बात, यह डिलीवर कर सकता है।