कृत्रिम बुद्धीमत्ता अर्थात ‘एआय’ हा सध्या चर्चेत असलेला मुद्दा आहे. खासकरुन ओपन एआय कंपनीने (OpenAI) चॅट जीपीटी (ChatGPT) हे बाजारात आणल्यानंतर या साऱ्या मुद्यांवरची चर्चा अधिकच वाढली. अवघ्या काही महिन्यांपूर्वी वापरास उपलब्ध झालेले चॅट जीपीटी बघता बघता अनेकांच्या दैनंदिन वापराचा भागही झाले आहे. त्यामध्ये अगदी कमी कालावधीमध्ये प्रचंड गतीने विकास देखील होत आहे. सुरुवातीला आलेली चॅट जीपीटीची आवृत्ती ही निव्वळ मजकूरावर प्रक्रिया करू शकत होती. मात्र, आता त्यामध्ये नवनव्या सुविधा विकसित होत असून कृत्रिम बुद्धीमत्तेच्या जगतात अचाट करुन टाकणारे बदल होत आहेत. आता चॅट जीपीटीची अशीच एक नवीन आवृत्ती बाजारात आली आहे. DALL-E सोबत एकत्र आल्याने चॅट जीपीटी आता अगदी नेहमीच्या भाषेतून प्रॉम्प्ट (सूचना) दिल्यानंतर प्रतिमांची निर्मितीदेखील करू शकते.

वापरकर्त्याने सूचना दिल्यानंतर नव्याने एखादी प्रतिमा तयार करणे ही एक गोष्ट झालीच, मात्र त्यासोबतच एखादी जुनी प्रतिमाही त्याला पुरवली तर त्याचाही अर्थ उलगडण्याचे काम चॅट जीपीटीची नवी आवृत्ती करु शकते. उदाहरणार्थ, काहीवेळा एखाद्या जुन्या पुस्तकातील वा माहितीपत्रकावरील प्रतिमांचा अर्थ लावण्याची गरज भासते. तर तेही काम आता चॅट जीपीटीच्या नव्या आवृत्तीच्या वापरामुळे सोपे झाले आहे. कारण एकतर अशा एखाद्या प्रतिमेचे विश्लेषण करणे बरेचदा कठीण आणि वेळखाऊ काम असते. मात्र, आता ‘जीपीटी – ४ व्हीजन’मुळे ते काम अगदी सहज आणि लीलया पार पडू शकते.

iocl recruitment 2024 apply for 467 engineering asst, tech attendant and other posts at iocl.com
IOCL Recruitment 2024 : इंडियन ऑईलमध्ये नोकरीची संधी! ‘या’ ४६७ रिक्त पदांवर होणार भरती; पगार १ लाखपेक्षा जास्त, जाणून घ्या सविस्तर
Budget 2024 FM Nirmala Sitharaman
Budget 2024 : EV घेणे होणार स्वस्त, HRA, हेल्थ इन्श्यूरन्स आणि बरंच काही; आजच्या अर्थसंकल्पातून काय मिळणार?
45 year old man underwent successful periampullary cancer surgery
४५ वर्षीय व्यक्तीवर स्वादुपिंडाच्या कर्करोगाची यशस्वी शस्त्रक्रिया!
Scientists Design a Spacesuit that Can Turn Urine into Drinking Water: How Does It Work?
मूत्रावर प्रक्रिया करून पिण्यायोग्य पाणी तयार करणारा स्पेससूट; का आणि कशासाठी? संशोधन काय सांगते?
Loksatta  Chaturang A trail of fear Experience the body
भय भूती : …आणि भीतीचा मागमूसही उरला नाही!
loksatta kutuhal artificial intelligence empowered visual communication
कुतूहल : दृश्य संवाद कृत्रिम बुद्धिमत्ता
Confusion in the recruitment process of Junior and Assistant Engineers of Mahanirti Nagpur
‘या’ पदभरती प्रक्रियेतही घोळ? प्रतीक्षा यादीसह काही नावे…
wedding card, environmental conservation,
अंबानींची लग्नपत्रिका असेल वेगळी, पण चर्चा मात्र ‘या’ लग्नपत्रिकेचीच

सप्टेंबर २०२३ मध्ये, ओपन एआयने दोन नव्या सुविधा समाविष्ट केल्या होत्या. एक म्हणजे यामध्ये वापरकर्त्याला प्रतिमेबद्दल प्रश्न विचारता येऊ लागले आणि दुसरे म्हणजे प्रश्न विचारण्यासाठी बोलण्याची सुविधा देखील देऊ केली आहे. गेल्या नोव्हेंबरमध्ये, ओपन एआय कंपनीने द्रष्टेपणा दाखवत API च्या प्रवेशासह ‘जीपीटी – ४ व्हीजन’ची घोषणा केली. आपण आता ‘जीपीटी – ४ व्हीजन’च्या तंत्रज्ञानावर आणि त्याच्या मर्यादांवर देखील एक नजर टाकणार आहोत.

हेही वाचा : ‘हेपिटायटिस’ या संसर्गजन्य आजारामुळे दररोज ३,५०० लोकांचा मृत्यू; हा आजार काय आहे? जाणून घ्या त्याची लक्षणे आणि उपाय

जीपीटी -४ व्हीजन नक्की आहे तरी काय?

‘जीपीटी – ४ व्हीजन’ यालाच ‘जीपीटी – ४ व्ही’ असेदेखील संबोधले जाते. यामध्ये वापरकर्त्यांना प्रतिमांचे विश्लेषण करता येते. ओपन एआयच्या संशोधनात्मक अहवालानुसार, “चॅट जीपीटीसारख्या मोठ्या भाषा मॉडेलमध्ये एखादी अतिरिक्त कृती करण्याची सुविधा मिळणे हे देखील एक मोठे पाऊल मानले जाते. त्यामुळे, आता त्यामध्ये प्रतिमा समाविष्ट करण्याची सुविधा प्राप्त झाल्याने हे नक्कीच एक मोठे यश आहे.”

जीपीटी – ४ व्हीजन हे चॅट बॉट मल्टीमॉडेल तयार करण्याच्या दिशेने टाकलेले एक मोठे पाऊल असल्याचे मानले जात आहे. यामध्ये प्रतिमा, मजकूर, ध्वनी यांचा वापर सहजपणे करता येऊ शकतो. यामध्ये वापरकर्त्यांना सूचना देण्यासाठी प्रतिमांचा वापर करता येऊ शकतो, तसेच त्याबद्दल प्रश्नही विचारता येऊ शकतात. या प्रक्रियेला ‘दृष्यात्मक प्रश्नांची उत्तरे देण्याची प्रक्रिया’ (Visual Question Answering – VQA) असे म्हणतात.

प्रतिमा, मजकूर आणि ध्वनी अशा तिन्ही गोष्टींवर करणार प्रक्रिया

जीपीटी – ४ व्हीजन हे एक ‘लार्ज मल्टीमोडल मॉडेल’ (LLM) आहे. हे मूलत: असे एक मॉडेल आहे, जे मजकूर आणि प्रतिमा किंवा मजकूर आणि ध्वनी यांसारख्या अनेक पद्धतींमध्ये माहिती घेण्यास आणि त्यावर प्रक्रिया करून प्रतिसाद निर्माण करण्याची क्षमता बाळगून आहे. मात्र, तंत्रज्ञानाचा विचार करता हा पहिला आणि एकमेव असा LMM नाही. CogVLM, LLaVA, Kosmos-2, इत्यादींसारखे इतरही अनेक LLM आहेत. LMM ला मल्टीमोडल लार्ज लँग्वेज मॉडेल (MLLMs) म्हणूनदेखील ओळखले जाते.

जीपीटी – ४ च्या प्रमुख क्षमता काय आहेत?
जीपीटी – ४ व्हीजनमध्ये छायाचित्रे, स्क्रीनशॉट आणि दस्तऐवजांसह दृश्य सामग्रीवर प्रक्रिया करणे यांसारख्या काही महत्त्वाच्या क्षमता समाविष्ट आहेत. या नव्या क्षमतांमुळे याला प्रतिमांमधील वस्तू ओळखणे आणि आलेख, तक्ते आणि दृश्यामधील इतर विदांचा अर्थ लावणे आणि विश्लेषण करणे यासारखी अनेक कार्ये करता येतात. जीपीटी – ४ व्हीजन प्रतिमांमध्ये समाविष्ट असलेल्या हस्तलिखित आणि मुद्रित मजकुराचादेखील अर्थ लावू शकते. कृत्रिम बुद्धिमत्तेच्या क्षेत्रामधील ही एक महत्त्वाची झेप आहे. कारण ती दृश्यात्मक समज आणि मजकूराचे विश्लेषण यांच्यातील अंतर अधिकाधिक कमी करते.

जीपीटी -४ व्हीजन वापरकर्त्यांना कशाप्रकारे मदत करू शकते?

‘द इंडियन एक्स्प्रेस’ला असे आढळून आले आहे की, जीपीटी – ४ व्हीजन हे संशोधक, वेब डेव्हलपर, विदा विश्लेषक आणि ‘कंटेट क्रिएटर्स’साठी एक सोयीचे साधन ठरू शकते. दृश्य क्षमतांचा वापर करुन प्रगत भाषा मॉडेलिंगच्या मदतीने जीपीटी – ४ व्हीजनचा वापर शैक्षणिक संशोधनात, विशेषत: ऐतिहासिक कागदपत्रे आणि हस्तलिखितांचा अर्थ लावण्यात होऊ शकतो.

अशाप्रकारची कामे वेळखाऊ असल्याने ती तज्ज्ञांच्या गटाद्वारे केली जातात. मात्र, जीपीटी – ४ हे काम सहजतेने करू शकते. विशेष म्हणजे ते वेळदेखील घेत नाही. अगदी काही सेकंदात ते निष्कर्ष आपल्यासमोर ठेवते. शिवाय त्यामधील अचूकता वाढवण्यासाठी वापरकर्ते त्याचे निष्कर्ष अनेक वेळा पडताळून घेऊ शकतात.

त्याचप्रमाणे जीपीटी – ४ व्हीजनचा वापर करून वेब डेव्हलपर आता संकेतस्थळांसाठी फक्त डिझाइनच्या दृश्य प्रतिमेवरून कोड लिहू शकतात. मग ते त्यासाठी एखादी कच्ची रेखाकृतीदेखील वापरु शकतात. हे मॉडेल कागदावरील डिझाइन वाचून संकेतस्थळासाठी कोडची निर्मिती करण्यासाठी देखील सक्षम आहे. विदेचा अर्थ लावणे हा कामाचा महत्त्वाचा भाग ठरतो. त्यामध्येही हे मॉडेल आश्चर्यकारक पद्धतीने कार्य करू शकते. कारण हे मॉडेल दृश्य आणि चित्रात्मक गोष्टींचाही अर्थ लावू शकते आणि त्याचे विश्लेषण करू शकते. थोडक्यात, जीपीटी – ४ व्हीजन आणि DALL-E 3 चे एकत्रित संयोजन होण्यामुळे ‘कंटेट क्रिएटर्स’ना समाजमाध्यमांसाठी आपली सर्जनशीलता अधिक वाढवण्यासाठी चांगलीच मदत होऊ शकते.

हेही वाचा : उमेदवारांनी संपत्ती म्हणून घड्याळही जाहीर करावं का? सर्वोच्च न्यायालयाचा सवाल; मालमत्ता प्रकरणी दिला महत्त्वपूर्ण निकाल

जीपीटी – ४ व्हीजनच्या मर्यादा काय आहेत?
ओपन एआयने हे मान्य केले आहे की, जीपीटी – ४ ने केलेली ही प्रगती नक्कीच अचूकता आणि विश्वासार्हतेच्या बाबतीत लक्षणीय झेप ठरते. मात्र, त्याने समोर ठेवलेले निष्कर्ष आणि विश्लेषण हे नेहमीच १०० टक्के अचूक आणि परिपूर्ण असतीलच असे नाही. कारण हे मॉडेलदेखील चुका करू शकते. त्यामुळेच त्याने प्रदान केलेले निष्कर्ष पुन्हा पडताळून पाहणे गरजेचे ठरते.

प्रतिमांमधील विशिष्ट व्यक्तींची ओळख टाळण्यासाठी मॉडेलला प्रशिक्षित केले गेले आहे. यालाच ओपन एआय डिझाइनद्वारे ‘रिफ्यूजल बिहेव्हिअर’ असे म्हणतात. याच्या असलेल्या मर्यादा आणि विसंगती ओळखून कंपनीने काही सूचनाही केल्या आहेत. त्यामध्ये अचूक वैज्ञानिक, वैद्यकीय आणि संवेदनशील विषयांच्या विश्लेषणासाठी याचा वापर करू नये, असे त्यांचे म्हणणे आहे.