मार्च 1, 2024

Rajneeti Guru

राजनीति, व्यापार, मनोरंजन, प्रौद्योगिकी, खेल, जीवन शैली और अधिक पर भारत से आज ही नवीनतम भारत समाचार और ताज़ा समाचार प्राप्त करें

इन सभी छवियों को नवीनतम कृत्रिम बुद्धि द्वारा बनाया गया है ताकि पाठ को Google से छवि में परिवर्तित किया जा सके

इन सभी छवियों को नवीनतम कृत्रिम बुद्धि द्वारा बनाया गया है ताकि पाठ को Google से छवि में परिवर्तित किया जा सके

आर्टिफिशियल इंटेलिजेंस में एक नया हॉट ट्रेंड है: टेक्स्ट-टू-इमेज जेनरेटर। इन कार्यक्रमों को कोई भी पाठ जो आप चाहते हैं फ़ीड करें और वे उस विवरण से मेल खाने वाली उल्लेखनीय सटीक छवियां बनाएंगे। वे तेल चित्रों से लेकर सीजीआई छवियों और यहां तक ​​​​कि तस्वीरों की एक श्रृंखला से मेल खा सकते हैं, और हालांकि यह कठिन दिखता है – कई मायनों में, केवल आपकी कल्पना ही सीमा है।

आज तक, उद्योग का नेता DALL-E रहा है, जो वाणिज्यिक AI लैब OpenAI (और अभी अपडेट किया गया) द्वारा बनाया गया एक कार्यक्रम है। अप्रैल में वापस) कल, हालांकि, Google उसने इस शैली पर अपने स्वयं के रुख की घोषणा कीइमेजेन, और इसकी उत्पादन गुणवत्ता में DALL-E को हटा दिया।

इन मॉडलों की अद्भुत क्षमता को समझने का सबसे अच्छा तरीका केवल कुछ छवियों को देखना है जो वे बना सकते हैं। ऊपर इमेजेन द्वारा कुछ बनाए गए हैं, और उस पर और नीचे (आप Google कस्टम लैंडिंग पृष्ठ पर और उदाहरण देख सकते हैं)

दोनों ही मामलों में, छवि के नीचे का पाठ कार्यक्रम में दर्ज किया जा रहा एक संकेत था, और ऊपर की छवि, आउटपुट। बस पुष्टि करने के लिए: बस इतना ही लगता है। आप वही लिखते हैं जो आप देखना चाहते हैं और प्रोग्राम इसे उत्पन्न करता है। बहुत बढ़िया, है ना?

लेकिन जबकि ये चित्र अपनी स्थिरता और सटीकता में निर्विवाद रूप से प्रभावशाली हैं, उन्हें भी एक चुटकी नमक के साथ कैप्चर किया जाना चाहिए। जब Google ब्रेन जैसी खोज टीमें एक नया AI मॉडल जारी करती हैं, तो वे सर्वोत्तम परिणाम चुनने की प्रवृत्ति रखते हैं। इसलिए, जबकि ये सभी छवियां काफी पॉलिश दिखती हैं, वे छवि प्रणाली के औसत आउटपुट का प्रतिनिधित्व नहीं कर सकती हैं।

TXT मॉडल द्वारा उत्पन्न छवियां अक्सर धब्बेदार, धुंधली या धुंधली दिखती हैं – ऐसी समस्याएं जिन्हें हमने OpenAI के DALL-E सॉफ़्टवेयर द्वारा बनाई गई छवियों के साथ देखा है। (टेक्स्ट-टू-इमेज सिस्टम के लिए समस्या बिंदुओं के बारे में अधिक जानकारी के लिए, देखें: ट्विटर पर इस दिलचस्प सूत्र को देखें, जो DALL-E की समस्याओं पर प्रकाश डालता है. यह अन्य बातों के अलावा, वैक्टर को गलत समझने और पाठ और चेहरे दोनों के साथ संघर्ष करने की प्रणाली की प्रवृत्ति पर प्रकाश डालता है।)

READ  सैमसंग का अगला फोल्डेबल फ्लैगशिप कथित तौर पर लीक हो रहा है

इसके बावजूद, Google का दावा है कि इमेजन DALL-E 2 की तुलना में लगातार बेहतर चित्र बनाता है, जो इस परियोजना के लिए बनाए गए एक नए मानक पर आधारित है, जिसे DrawBench कहा जाता है।

DrawBench विशेष रूप से जटिल मीट्रिक नहीं है: यह मूल रूप से एक फ़ाइल है लगभग 200 पाठ संकेतों की सूची Google टीम ने उन्हें इमेजेन और अन्य टेक्स्ट-टू-इमेज जेनरेटर में फीड किया, प्रत्येक प्रोग्राम आउटपुट के साथ और फिर मानव मूल्यांकनकर्ताओं द्वारा निर्णय लिया गया। जैसा कि नीचे दिए गए ग्राफ़ में दिखाया गया है, Google ने पाया है कि आम तौर पर मनुष्य प्रतिस्पर्धियों के आउटपुट पर इमेजेन के आउटपुट को पसंद करते हैं।

Google का ड्राबेंच बेंचमार्क इमेजन के आउटपुट की तुलना टेक्स्ट-टू-इमेज सिस्टम जैसे OpenAI के DALL-E 2 से करता है।
छवि: गूगल

इसे अपने लिए आंकना कठिन होगा, क्योंकि Google इमेजेन फॉर्म को सार्वजनिक रूप से उपलब्ध नहीं कराता है। इसका एक अच्छा कारण भी है। जबकि टेक्स्ट-टू-इमेज फॉर्म में निश्चित रूप से बड़ी रचनात्मक क्षमता होती है, उनके पास कष्टप्रद अनुप्रयोगों का एक समूह भी होता है। उदाहरण के लिए, एक ऐसी प्रणाली की कल्पना करें जो नकली समाचार, धोखाधड़ी या उत्पीड़न फैलाने के लिए आपके द्वारा उपयोग की जाने वाली किसी भी छवि को उत्पन्न करती है। जैसा कि Google नोट करता है, ये सिस्टम सामाजिक पूर्वाग्रहों को भी सांकेतिक शब्दों में बदलना करते हैं, जिसका परिणाम अक्सर नस्लवादी, लिंगवादी, या अन्यथा एक अभिनव तरीके से विषाक्त होता है।

इसका अधिकांश कारण यह है कि इन प्रणालियों को कैसे प्रोग्राम किया जाता है। अनिवार्य रूप से, उन्हें भारी मात्रा में डेटा पर प्रशिक्षित किया जाता है (इस मामले में: छवियों और एनोटेशन के बहुत सारे जोड़े) जो वे पैटर्न के लिए अध्ययन करते हैं और पुनरावृति करना सीखते हैं। लेकिन इन मॉडलों के लिए बहुत अधिक डेटा की आवश्यकता होती है, और अधिकांश शोधकर्ताओं – यहां तक ​​​​कि Google जैसे अच्छी तरह से वित्त पोषित तकनीकी दिग्गजों के लिए काम करने वालों ने भी फैसला किया है कि इस तरह के इनपुट को पूरी तरह से फ़िल्टर करना बहुत मुश्किल है। इसलिए, वे वेब से भारी मात्रा में डेटा निकालते हैं, और परिणामस्वरूप, उनके मॉडल उन सभी खराब, घृणित सामग्री को अवशोषित (और पुनरावृति करना सीखते हैं) जिन्हें आप ऑनलाइन खोजने की अपेक्षा करते हैं।

Google शोधकर्ता भी इस समस्या को एक फ़ाइल में सारांशित करते हैं कागज़: “[T]टेक्स्ट-टू-इमेज फॉर्म के लिए व्यापक डेटा आवश्यकताएं […] इसने शोधकर्ताओं को वेब द्वारा प्रदान किए गए बड़े, अक्सर असंतृप्त, डेटा सेट पर अधिक भरोसा करने के लिए प्रेरित किया […] डेटासेट ऑडिट से पता चला कि ये डेटा सेट सामाजिक रूढ़िवादिता, दमनकारी दृष्टिकोण, और अपमानजनक, या हानिकारक, हाशिए पर पहचान समूहों के साथ जुड़ाव को दर्शाते हैं।”

दूसरे शब्दों में, कंप्यूटर वैज्ञानिकों की पुरानी कहावत अभी भी एआई की जीवंत दुनिया में लागू होती है: ट्रैश इन, ट्रैश आउट।

Google इमेजेन द्वारा उत्पन्न परेशान करने वाली सामग्री के बारे में अधिक विस्तार में नहीं जाता है, लेकिन नोट करता है कि मॉडल “कई सामाजिक पूर्वाग्रहों और रूढ़िवादों को एन्कोड करता है, जिसमें हल्के त्वचा वाले लोगों की छवियां बनाने के लिए एक सामान्य पूर्वाग्रह और विभिन्न व्यवसायों को चित्रित करने वाली छवियों के लिए एक रुचि शामिल है। ।” पश्चिमी लिंग रूढ़ियों को ध्यान में रखते हुए।”

यह कुछ शोधकर्ता है DALL-E का मूल्यांकन करते समय भी पाया गया. उदाहरण के लिए, DALL-E को “फ्लाइट परिचारिका” की तस्वीरें बनाने के लिए कहें, और लगभग सभी लोग महिलाएं होंगी। “सीईओ” चित्रों के लिए पूछें, और आश्चर्य, आश्चर्य, आपको गोरे लोगों का एक गुच्छा मिलता है।

इसलिए OpenAI ने भी DALL-E को सार्वजनिक रूप से जारी नहीं करने का फैसला किया है, लेकिन कंपनी बीटा टेस्टर्स के चुनिंदा समूह को एक्सेस दे रही है। यह फ़ॉर्म को नस्लवादी, हिंसक या अश्लील चित्र बनाने के लिए उपयोग किए जाने से रोकने के प्रयास में कुछ टेक्स्ट इनपुट को भी फ़िल्टर करता है। ये क्रियाएं इस तकनीक के संभावित हानिकारक अनुप्रयोगों को प्रतिबंधित करने के लिए किसी भी तरह से जाती हैं, लेकिन कृत्रिम बुद्धि का इतिहास हमें बताता है कि टेक्स्ट-टू-इमेज मॉडल भविष्य में किसी बिंदु पर सार्वजनिक होने के लिए लगभग निश्चित हैं, सभी कष्टप्रद प्रभावों के साथ व्यापक पहुंच लाता है।

Google का अपना निष्कर्ष यह है कि इमेजन “इस समय सार्वजनिक उपयोग के लिए उपयुक्त नहीं है,” और कंपनी का कहना है कि वह “भविष्य के काम में सामाजिक और सांस्कृतिक पूर्वाग्रह” को मापने और भविष्य के पुनरावृत्तियों के परीक्षण के लिए एक नया तरीका विकसित करने की योजना बना रही है। अभी के लिए, हालांकि, हमें कंपनी की छवियों की उत्साहित पसंद से संतुष्ट होना होगा – रैकून किंग और कैक्टस वियर सनग्लासेस। हालांकि, यह सिर्फ हिमशैल का सिरा है। हिमशैल में तकनीकी अनुसंधान के अनपेक्षित परिणाम होते हैं, यदि इमेजेन उत्पन्न करना शुरू करना चाहता है कौन कौनसा.