आर्टिफिशियल इंटेलिजेंस में एक नया हॉट ट्रेंड है: टेक्स्ट-टू-इमेज जेनरेटर। इन कार्यक्रमों को कोई भी पाठ जो आप चाहते हैं फ़ीड करें और वे उस विवरण से मेल खाने वाली उल्लेखनीय सटीक छवियां बनाएंगे। वे तेल चित्रों से लेकर सीजीआई छवियों और यहां तक कि तस्वीरों की एक श्रृंखला से मेल खा सकते हैं, और हालांकि यह कठिन दिखता है – कई मायनों में, केवल आपकी कल्पना ही सीमा है।
आज तक, उद्योग का नेता DALL-E रहा है, जो वाणिज्यिक AI लैब OpenAI (और अभी अपडेट किया गया) द्वारा बनाया गया एक कार्यक्रम है। अप्रैल में वापस) कल, हालांकि, Google उसने इस शैली पर अपने स्वयं के रुख की घोषणा कीइमेजेन, और इसकी उत्पादन गुणवत्ता में DALL-E को हटा दिया।
इन मॉडलों की अद्भुत क्षमता को समझने का सबसे अच्छा तरीका केवल कुछ छवियों को देखना है जो वे बना सकते हैं। ऊपर इमेजेन द्वारा कुछ बनाए गए हैं, और उस पर और नीचे (आप Google कस्टम लैंडिंग पृष्ठ पर और उदाहरण देख सकते हैं)
दोनों ही मामलों में, छवि के नीचे का पाठ कार्यक्रम में दर्ज किया जा रहा एक संकेत था, और ऊपर की छवि, आउटपुट। बस पुष्टि करने के लिए: बस इतना ही लगता है। आप वही लिखते हैं जो आप देखना चाहते हैं और प्रोग्राम इसे उत्पन्न करता है। बहुत बढ़िया, है ना?
लेकिन जबकि ये चित्र अपनी स्थिरता और सटीकता में निर्विवाद रूप से प्रभावशाली हैं, उन्हें भी एक चुटकी नमक के साथ कैप्चर किया जाना चाहिए। जब Google ब्रेन जैसी खोज टीमें एक नया AI मॉडल जारी करती हैं, तो वे सर्वोत्तम परिणाम चुनने की प्रवृत्ति रखते हैं। इसलिए, जबकि ये सभी छवियां काफी पॉलिश दिखती हैं, वे छवि प्रणाली के औसत आउटपुट का प्रतिनिधित्व नहीं कर सकती हैं।
TXT मॉडल द्वारा उत्पन्न छवियां अक्सर धब्बेदार, धुंधली या धुंधली दिखती हैं – ऐसी समस्याएं जिन्हें हमने OpenAI के DALL-E सॉफ़्टवेयर द्वारा बनाई गई छवियों के साथ देखा है। (टेक्स्ट-टू-इमेज सिस्टम के लिए समस्या बिंदुओं के बारे में अधिक जानकारी के लिए, देखें: ट्विटर पर इस दिलचस्प सूत्र को देखें, जो DALL-E की समस्याओं पर प्रकाश डालता है. यह अन्य बातों के अलावा, वैक्टर को गलत समझने और पाठ और चेहरे दोनों के साथ संघर्ष करने की प्रणाली की प्रवृत्ति पर प्रकाश डालता है।)
इसके बावजूद, Google का दावा है कि इमेजन DALL-E 2 की तुलना में लगातार बेहतर चित्र बनाता है, जो इस परियोजना के लिए बनाए गए एक नए मानक पर आधारित है, जिसे DrawBench कहा जाता है।
DrawBench विशेष रूप से जटिल मीट्रिक नहीं है: यह मूल रूप से एक फ़ाइल है लगभग 200 पाठ संकेतों की सूची Google टीम ने उन्हें इमेजेन और अन्य टेक्स्ट-टू-इमेज जेनरेटर में फीड किया, प्रत्येक प्रोग्राम आउटपुट के साथ और फिर मानव मूल्यांकनकर्ताओं द्वारा निर्णय लिया गया। जैसा कि नीचे दिए गए ग्राफ़ में दिखाया गया है, Google ने पाया है कि आम तौर पर मनुष्य प्रतिस्पर्धियों के आउटपुट पर इमेजेन के आउटपुट को पसंद करते हैं।
इसे अपने लिए आंकना कठिन होगा, क्योंकि Google इमेजेन फॉर्म को सार्वजनिक रूप से उपलब्ध नहीं कराता है। इसका एक अच्छा कारण भी है। जबकि टेक्स्ट-टू-इमेज फॉर्म में निश्चित रूप से बड़ी रचनात्मक क्षमता होती है, उनके पास कष्टप्रद अनुप्रयोगों का एक समूह भी होता है। उदाहरण के लिए, एक ऐसी प्रणाली की कल्पना करें जो नकली समाचार, धोखाधड़ी या उत्पीड़न फैलाने के लिए आपके द्वारा उपयोग की जाने वाली किसी भी छवि को उत्पन्न करती है। जैसा कि Google नोट करता है, ये सिस्टम सामाजिक पूर्वाग्रहों को भी सांकेतिक शब्दों में बदलना करते हैं, जिसका परिणाम अक्सर नस्लवादी, लिंगवादी, या अन्यथा एक अभिनव तरीके से विषाक्त होता है।
इसका अधिकांश कारण यह है कि इन प्रणालियों को कैसे प्रोग्राम किया जाता है। अनिवार्य रूप से, उन्हें भारी मात्रा में डेटा पर प्रशिक्षित किया जाता है (इस मामले में: छवियों और एनोटेशन के बहुत सारे जोड़े) जो वे पैटर्न के लिए अध्ययन करते हैं और पुनरावृति करना सीखते हैं। लेकिन इन मॉडलों के लिए बहुत अधिक डेटा की आवश्यकता होती है, और अधिकांश शोधकर्ताओं – यहां तक कि Google जैसे अच्छी तरह से वित्त पोषित तकनीकी दिग्गजों के लिए काम करने वालों ने भी फैसला किया है कि इस तरह के इनपुट को पूरी तरह से फ़िल्टर करना बहुत मुश्किल है। इसलिए, वे वेब से भारी मात्रा में डेटा निकालते हैं, और परिणामस्वरूप, उनके मॉडल उन सभी खराब, घृणित सामग्री को अवशोषित (और पुनरावृति करना सीखते हैं) जिन्हें आप ऑनलाइन खोजने की अपेक्षा करते हैं।
Google शोधकर्ता भी इस समस्या को एक फ़ाइल में सारांशित करते हैं कागज़: “[T]टेक्स्ट-टू-इमेज फॉर्म के लिए व्यापक डेटा आवश्यकताएं […] इसने शोधकर्ताओं को वेब द्वारा प्रदान किए गए बड़े, अक्सर असंतृप्त, डेटा सेट पर अधिक भरोसा करने के लिए प्रेरित किया […] डेटासेट ऑडिट से पता चला कि ये डेटा सेट सामाजिक रूढ़िवादिता, दमनकारी दृष्टिकोण, और अपमानजनक, या हानिकारक, हाशिए पर पहचान समूहों के साथ जुड़ाव को दर्शाते हैं।”
दूसरे शब्दों में, कंप्यूटर वैज्ञानिकों की पुरानी कहावत अभी भी एआई की जीवंत दुनिया में लागू होती है: ट्रैश इन, ट्रैश आउट।
Google इमेजेन द्वारा उत्पन्न परेशान करने वाली सामग्री के बारे में अधिक विस्तार में नहीं जाता है, लेकिन नोट करता है कि मॉडल “कई सामाजिक पूर्वाग्रहों और रूढ़िवादों को एन्कोड करता है, जिसमें हल्के त्वचा वाले लोगों की छवियां बनाने के लिए एक सामान्य पूर्वाग्रह और विभिन्न व्यवसायों को चित्रित करने वाली छवियों के लिए एक रुचि शामिल है। ।” पश्चिमी लिंग रूढ़ियों को ध्यान में रखते हुए।”
यह कुछ शोधकर्ता है DALL-E का मूल्यांकन करते समय भी पाया गया. उदाहरण के लिए, DALL-E को “फ्लाइट परिचारिका” की तस्वीरें बनाने के लिए कहें, और लगभग सभी लोग महिलाएं होंगी। “सीईओ” चित्रों के लिए पूछें, और आश्चर्य, आश्चर्य, आपको गोरे लोगों का एक गुच्छा मिलता है।
इसलिए OpenAI ने भी DALL-E को सार्वजनिक रूप से जारी नहीं करने का फैसला किया है, लेकिन कंपनी बीटा टेस्टर्स के चुनिंदा समूह को एक्सेस दे रही है। यह फ़ॉर्म को नस्लवादी, हिंसक या अश्लील चित्र बनाने के लिए उपयोग किए जाने से रोकने के प्रयास में कुछ टेक्स्ट इनपुट को भी फ़िल्टर करता है। ये क्रियाएं इस तकनीक के संभावित हानिकारक अनुप्रयोगों को प्रतिबंधित करने के लिए किसी भी तरह से जाती हैं, लेकिन कृत्रिम बुद्धि का इतिहास हमें बताता है कि टेक्स्ट-टू-इमेज मॉडल भविष्य में किसी बिंदु पर सार्वजनिक होने के लिए लगभग निश्चित हैं, सभी कष्टप्रद प्रभावों के साथ व्यापक पहुंच लाता है।
Google का अपना निष्कर्ष यह है कि इमेजन “इस समय सार्वजनिक उपयोग के लिए उपयुक्त नहीं है,” और कंपनी का कहना है कि वह “भविष्य के काम में सामाजिक और सांस्कृतिक पूर्वाग्रह” को मापने और भविष्य के पुनरावृत्तियों के परीक्षण के लिए एक नया तरीका विकसित करने की योजना बना रही है। अभी के लिए, हालांकि, हमें कंपनी की छवियों की उत्साहित पसंद से संतुष्ट होना होगा – रैकून किंग और कैक्टस वियर सनग्लासेस। हालांकि, यह सिर्फ हिमशैल का सिरा है। हिमशैल में तकनीकी अनुसंधान के अनपेक्षित परिणाम होते हैं, यदि इमेजेन उत्पन्न करना शुरू करना चाहता है कौन कौनसा.
More Stories
ट्रेलर फ़ुटेज को एक साथ रखने में किसी के 200 घंटे खर्च करने के बाद स्टारफ़ील्ड का संपूर्ण कौशल वृक्ष संभवतः खाली हो गया है
Pixel Watch 2 में होगा एल्युमीनियम का इस्तेमाल, आ रहा है फिटबिट ‘कोच’
Apple अपने विज़न प्रो डेवलपर समूहों के लिए ऐप्स लेता है