कृत्रिम बुद्धीमत्ता अर्थात ‘एआय’ हा सध्या चर्चेत असलेला मुद्दा आहे. खासकरुन ओपन एआय कंपनीने (OpenAI) चॅट जीपीटी (ChatGPT) हे बाजारात आणल्यानंतर या साऱ्या मुद्यांवरची चर्चा अधिकच वाढली. अवघ्या काही महिन्यांपूर्वी वापरास उपलब्ध झालेले चॅट जीपीटी बघता बघता अनेकांच्या दैनंदिन वापराचा भागही झाले आहे. त्यामध्ये अगदी कमी कालावधीमध्ये प्रचंड गतीने विकास देखील होत आहे. सुरुवातीला आलेली चॅट जीपीटीची आवृत्ती ही निव्वळ मजकूरावर प्रक्रिया करू शकत होती. मात्र, आता त्यामध्ये नवनव्या सुविधा विकसित होत असून कृत्रिम बुद्धीमत्तेच्या जगतात अचाट करुन टाकणारे बदल होत आहेत. आता चॅट जीपीटीची अशीच एक नवीन आवृत्ती बाजारात आली आहे. DALL-E सोबत एकत्र आल्याने चॅट जीपीटी आता अगदी नेहमीच्या भाषेतून प्रॉम्प्ट (सूचना) दिल्यानंतर प्रतिमांची निर्मितीदेखील करू शकते.

वापरकर्त्याने सूचना दिल्यानंतर नव्याने एखादी प्रतिमा तयार करणे ही एक गोष्ट झालीच, मात्र त्यासोबतच एखादी जुनी प्रतिमाही त्याला पुरवली तर त्याचाही अर्थ उलगडण्याचे काम चॅट जीपीटीची नवी आवृत्ती करु शकते. उदाहरणार्थ, काहीवेळा एखाद्या जुन्या पुस्तकातील वा माहितीपत्रकावरील प्रतिमांचा अर्थ लावण्याची गरज भासते. तर तेही काम आता चॅट जीपीटीच्या नव्या आवृत्तीच्या वापरामुळे सोपे झाले आहे. कारण एकतर अशा एखाद्या प्रतिमेचे विश्लेषण करणे बरेचदा कठीण आणि वेळखाऊ काम असते. मात्र, आता ‘जीपीटी – ४ व्हीजन’मुळे ते काम अगदी सहज आणि लीलया पार पडू शकते.

mushrooms converted to vitamin D2 upon exposure to UV light from the sun before consuming them Read what Expert Said
खाण्यापूर्वी एक ते दोन तास ठेवा मशरूमला सूर्यप्रकाशात; व्हिटॅमिन डीची कमतरता राहील दूर? तज्ज्ञांनी सांगितलेलं सूत्र समजून घ्या
Mumbai, surrogacy, surrogacy Rise in Mumbai, Infertility Rates Increase, 10 to 12 couples apply for surrogacy, surrogacy every month, Mumbai news,
मुंबई : दर महिन्याला सरोगसीसाठी १० ते १२ जोडप्यांचे अर्ज
World Thalassemia Day 2024
थॅलसिमियावर नियंत्रण आणि त्याचा प्रतिबंधही शक्य आहे…
new atm scam
एटीएमचा नवा कार्ड ट्रॅप घोटाळा; कफल्लक व्हायचं नसेल तर हे वाचाच
what is heatwave in marathi
विश्लेषण: वाढत्या तापमानाचा तडाखा किती तीव्र? उष्माघात प्राणघातक कसा ठरतो?
upsc capf recruitment 2024 registration begins apply for 506 assistant commandant
केंद्रीय सशस्त्र पोलीस दलात ‘इतक्या’ पदांसाठी भरती; जाणून घ्या कशी होईल निवड, पगार आणि अर्जाची प्रक्रिया
generative artificial intelligence marathi news
कृत्रिम बुद्धिमत्तेच्या भविष्यात डोकावताना…
Loksatta kutuhal Artificial intelligence Technology The Turing Test Mirror test
कुतूहल: स्वजाणिवेच्या पात्रता कसोट्या

सप्टेंबर २०२३ मध्ये, ओपन एआयने दोन नव्या सुविधा समाविष्ट केल्या होत्या. एक म्हणजे यामध्ये वापरकर्त्याला प्रतिमेबद्दल प्रश्न विचारता येऊ लागले आणि दुसरे म्हणजे प्रश्न विचारण्यासाठी बोलण्याची सुविधा देखील देऊ केली आहे. गेल्या नोव्हेंबरमध्ये, ओपन एआय कंपनीने द्रष्टेपणा दाखवत API च्या प्रवेशासह ‘जीपीटी – ४ व्हीजन’ची घोषणा केली. आपण आता ‘जीपीटी – ४ व्हीजन’च्या तंत्रज्ञानावर आणि त्याच्या मर्यादांवर देखील एक नजर टाकणार आहोत.

हेही वाचा : ‘हेपिटायटिस’ या संसर्गजन्य आजारामुळे दररोज ३,५०० लोकांचा मृत्यू; हा आजार काय आहे? जाणून घ्या त्याची लक्षणे आणि उपाय

जीपीटी -४ व्हीजन नक्की आहे तरी काय?

‘जीपीटी – ४ व्हीजन’ यालाच ‘जीपीटी – ४ व्ही’ असेदेखील संबोधले जाते. यामध्ये वापरकर्त्यांना प्रतिमांचे विश्लेषण करता येते. ओपन एआयच्या संशोधनात्मक अहवालानुसार, “चॅट जीपीटीसारख्या मोठ्या भाषा मॉडेलमध्ये एखादी अतिरिक्त कृती करण्याची सुविधा मिळणे हे देखील एक मोठे पाऊल मानले जाते. त्यामुळे, आता त्यामध्ये प्रतिमा समाविष्ट करण्याची सुविधा प्राप्त झाल्याने हे नक्कीच एक मोठे यश आहे.”

जीपीटी – ४ व्हीजन हे चॅट बॉट मल्टीमॉडेल तयार करण्याच्या दिशेने टाकलेले एक मोठे पाऊल असल्याचे मानले जात आहे. यामध्ये प्रतिमा, मजकूर, ध्वनी यांचा वापर सहजपणे करता येऊ शकतो. यामध्ये वापरकर्त्यांना सूचना देण्यासाठी प्रतिमांचा वापर करता येऊ शकतो, तसेच त्याबद्दल प्रश्नही विचारता येऊ शकतात. या प्रक्रियेला ‘दृष्यात्मक प्रश्नांची उत्तरे देण्याची प्रक्रिया’ (Visual Question Answering – VQA) असे म्हणतात.

प्रतिमा, मजकूर आणि ध्वनी अशा तिन्ही गोष्टींवर करणार प्रक्रिया

जीपीटी – ४ व्हीजन हे एक ‘लार्ज मल्टीमोडल मॉडेल’ (LLM) आहे. हे मूलत: असे एक मॉडेल आहे, जे मजकूर आणि प्रतिमा किंवा मजकूर आणि ध्वनी यांसारख्या अनेक पद्धतींमध्ये माहिती घेण्यास आणि त्यावर प्रक्रिया करून प्रतिसाद निर्माण करण्याची क्षमता बाळगून आहे. मात्र, तंत्रज्ञानाचा विचार करता हा पहिला आणि एकमेव असा LMM नाही. CogVLM, LLaVA, Kosmos-2, इत्यादींसारखे इतरही अनेक LLM आहेत. LMM ला मल्टीमोडल लार्ज लँग्वेज मॉडेल (MLLMs) म्हणूनदेखील ओळखले जाते.

जीपीटी – ४ च्या प्रमुख क्षमता काय आहेत?
जीपीटी – ४ व्हीजनमध्ये छायाचित्रे, स्क्रीनशॉट आणि दस्तऐवजांसह दृश्य सामग्रीवर प्रक्रिया करणे यांसारख्या काही महत्त्वाच्या क्षमता समाविष्ट आहेत. या नव्या क्षमतांमुळे याला प्रतिमांमधील वस्तू ओळखणे आणि आलेख, तक्ते आणि दृश्यामधील इतर विदांचा अर्थ लावणे आणि विश्लेषण करणे यासारखी अनेक कार्ये करता येतात. जीपीटी – ४ व्हीजन प्रतिमांमध्ये समाविष्ट असलेल्या हस्तलिखित आणि मुद्रित मजकुराचादेखील अर्थ लावू शकते. कृत्रिम बुद्धिमत्तेच्या क्षेत्रामधील ही एक महत्त्वाची झेप आहे. कारण ती दृश्यात्मक समज आणि मजकूराचे विश्लेषण यांच्यातील अंतर अधिकाधिक कमी करते.

जीपीटी -४ व्हीजन वापरकर्त्यांना कशाप्रकारे मदत करू शकते?

‘द इंडियन एक्स्प्रेस’ला असे आढळून आले आहे की, जीपीटी – ४ व्हीजन हे संशोधक, वेब डेव्हलपर, विदा विश्लेषक आणि ‘कंटेट क्रिएटर्स’साठी एक सोयीचे साधन ठरू शकते. दृश्य क्षमतांचा वापर करुन प्रगत भाषा मॉडेलिंगच्या मदतीने जीपीटी – ४ व्हीजनचा वापर शैक्षणिक संशोधनात, विशेषत: ऐतिहासिक कागदपत्रे आणि हस्तलिखितांचा अर्थ लावण्यात होऊ शकतो.

अशाप्रकारची कामे वेळखाऊ असल्याने ती तज्ज्ञांच्या गटाद्वारे केली जातात. मात्र, जीपीटी – ४ हे काम सहजतेने करू शकते. विशेष म्हणजे ते वेळदेखील घेत नाही. अगदी काही सेकंदात ते निष्कर्ष आपल्यासमोर ठेवते. शिवाय त्यामधील अचूकता वाढवण्यासाठी वापरकर्ते त्याचे निष्कर्ष अनेक वेळा पडताळून घेऊ शकतात.

त्याचप्रमाणे जीपीटी – ४ व्हीजनचा वापर करून वेब डेव्हलपर आता संकेतस्थळांसाठी फक्त डिझाइनच्या दृश्य प्रतिमेवरून कोड लिहू शकतात. मग ते त्यासाठी एखादी कच्ची रेखाकृतीदेखील वापरु शकतात. हे मॉडेल कागदावरील डिझाइन वाचून संकेतस्थळासाठी कोडची निर्मिती करण्यासाठी देखील सक्षम आहे. विदेचा अर्थ लावणे हा कामाचा महत्त्वाचा भाग ठरतो. त्यामध्येही हे मॉडेल आश्चर्यकारक पद्धतीने कार्य करू शकते. कारण हे मॉडेल दृश्य आणि चित्रात्मक गोष्टींचाही अर्थ लावू शकते आणि त्याचे विश्लेषण करू शकते. थोडक्यात, जीपीटी – ४ व्हीजन आणि DALL-E 3 चे एकत्रित संयोजन होण्यामुळे ‘कंटेट क्रिएटर्स’ना समाजमाध्यमांसाठी आपली सर्जनशीलता अधिक वाढवण्यासाठी चांगलीच मदत होऊ शकते.

हेही वाचा : उमेदवारांनी संपत्ती म्हणून घड्याळही जाहीर करावं का? सर्वोच्च न्यायालयाचा सवाल; मालमत्ता प्रकरणी दिला महत्त्वपूर्ण निकाल

जीपीटी – ४ व्हीजनच्या मर्यादा काय आहेत?
ओपन एआयने हे मान्य केले आहे की, जीपीटी – ४ ने केलेली ही प्रगती नक्कीच अचूकता आणि विश्वासार्हतेच्या बाबतीत लक्षणीय झेप ठरते. मात्र, त्याने समोर ठेवलेले निष्कर्ष आणि विश्लेषण हे नेहमीच १०० टक्के अचूक आणि परिपूर्ण असतीलच असे नाही. कारण हे मॉडेलदेखील चुका करू शकते. त्यामुळेच त्याने प्रदान केलेले निष्कर्ष पुन्हा पडताळून पाहणे गरजेचे ठरते.

प्रतिमांमधील विशिष्ट व्यक्तींची ओळख टाळण्यासाठी मॉडेलला प्रशिक्षित केले गेले आहे. यालाच ओपन एआय डिझाइनद्वारे ‘रिफ्यूजल बिहेव्हिअर’ असे म्हणतात. याच्या असलेल्या मर्यादा आणि विसंगती ओळखून कंपनीने काही सूचनाही केल्या आहेत. त्यामध्ये अचूक वैज्ञानिक, वैद्यकीय आणि संवेदनशील विषयांच्या विश्लेषणासाठी याचा वापर करू नये, असे त्यांचे म्हणणे आहे.