आयटी क्षेत्रातील बहुसंख्य भारतीयांच्या नोकऱ्यांवर गंडांतर आणू पाहणाऱ्या ‘अँथ्रोपीक क्लॉड’सारख्या एजेन्टिक एआयने खळबळ उडवून दिली असताना अस्सल भारतीय ‘सर्वम’ची चर्चा जोर धरू लागली आहे. भारतीय भाषांत सहजपणे कृत्रिम बुद्धिमत्तेचा वापर करता यावा, यासाठी ‘साॅवरन एआय’ मॉडेल विकसित करत असलेल्या बंगळूरुतील ‘सर्वम’ या कंपनीच्या ‘एआय टूल्स’नी कामगिरीच्या बाबतीत चॅटजीपीटी आणि गुगल जेमिनायलाही मागे टाकले आहे. ‘सर्वम’च्या स्टार्टअपची ही क्षमता एआय क्षेत्रातील तज्ज्ञांनाही अचंबित करणारी ठरत आहे. ही किमया ‘सर्वम’ने कशी केली ते सांगण्याचा हा प्रयत्न…

भारताच्या एआय मोहिमेला बळ…

‘सर्वम’ हे २०२३मध्ये सुरू झालेले बंगळूरुस्थित स्टार्टअप आहे. आयआयटी मुंबईतून पदवीधर झालेल्या प्रत्युश कुमार या तरुणाने ही कंपनी स्थापन केली. मायक्रोसॉफ्ट, आयबीएम अशा कंपन्यांमधून काम केल्यानंतर आदित्यने ‘सर्वम’ची मुहूर्तमेढ रोवली. त्याला साथ लाभली विवेक राघवन यांची. गेल्या दोन दशकांपासून इलेक्ट्रॉनिक्स क्षेत्रातील डिझाइन ऑटोमेशनमध्ये कार्यरत राहिलेले विवेक राघवन यांनी आतापर्यंत केंद्र सरकारशी संलग्न अनेक प्रकल्पांमध्ये काम केले आहे. सर्वोच्च न्यायालयाच्या आदेशांचे भारतीय भाषांत अनुवाद करणाऱ्या सॉफ्टवेअरच्या अमलबजावणी प्रक्रियेतील समितीवर त्यांनी काम केले आहे. याशिवाय ‘जीएसटी’मधील गैरव्यवहाराचा छडा लावणारे एआय मॉडेल विकसित करण्यातही त्यांचा मोठा वाटा आहे. चॅटजीपीटीसारख्या एआय तंत्रज्ञानाने आयटी क्षेत्रात आमूलाग्र क्रांती घडवल्यानंतर ‘एआय’ भारतीय भाषांतून अधिक अचूकपणे काम करावे, या हेतूने या दोघांनी संशोधन करत ‘सर्वम’ची स्थापना केली. ‘सर्वम’च्या अंतर्गत ‘सॉवरन एआय’ (sovereign AI) या देशांतर्गत एआय मॉडेल ही कंपनी विकसित करत आहे.

चॅटजीपीटीच्या पुढे जाणारे ‘व्हिजन’ 

‘सर्वम’ने विकसित केलेले ‘सर्वम व्हिजन’ आणि ‘बुलबुल व्ही३’ हे कृत्रिम बुद्धिमत्ता आधारित टूल्स सध्या कौतुकाचा विषय ठरत आहेत. यापैकी ‘सर्वम व्हिजन’ हे ‘ओसीआर’ अर्थात ‘ऑप्टीकल कॅरेक्टर रेकग्निशन’ टूल आहे. एखाद्या छायाचित्रातील किंवा स्कॅन केलेल्या दस्तावेजातील मजकूर जसाच्या तसा ‘टेक्स्ट’स्वरूपात उपलब्ध करून देण्याचे कार्य हे टूल करत असते. ‘इमेज’स्वरूपात असलेल्या मजकुराला ‘एडिटेबल’ करण्याचे काम करणाऱ्या या टूलची अचूकता हा सर्वात महत्त्वाचा मुद्दा असतो. त्याबाबतीत ‘व्हिजन’ने गुगल जेमिनायलाही मागे टाकले आहे. प्रत्युश कुमार यांनी अलिकडेच याच्या शास्त्रीय चाचणीचे निष्कर्ष प्रसिद्ध केले. त्यानुसार छायाचित्रातील इंग्रजी मजकूर ‘टेक्स्ट’ स्वरूपात घेण्यात ‘व्हिजन’ची अचूकता ८४ टक्क्यांहून अधिक ठरली. त्या तुलनेत जेमिनाय (८० टक्के) आणि चॅटजीपीटी (६९.८०) खूपच मागे असल्याचे दिसून आले. एवढेच नव्हे तर गणितीय संज्ञा, तांत्रिक माहितीचे तक्ते अशी ‘डिजिटल’ स्वरूपातील माहिती समजून घेण्याची ‘व्हिजन’ची क्षमताही ९४ टक्क्यांच्या आसपास असल्याचे दिसून आले.

भारतीय भाषांना आवाज देणारे ‘बुलबुल’

‘बुलबुल व्ही३’ हे ‘टेक्स्ट टू स्पीच’ रूपांतर करणारे एआय टूल आहे. कोणत्याही लिखित मजकुराचे  ध्वनी स्वरूपात रूपांतर करण्याचे काम हे टूल करते. ‘बुलबुल’ यात अतिशय पारंगत असल्याचे आढळून आले आहे. विशेषत: भारतीय भाषांमधील मजकुराला भारतीय ‘आवाज’ देण्याच्या बाबतीत हे टूल अतिशय उपयुक्त आहे.  ‘टेक्स्ट टू स्पीच’ करण्यासाठी भारतीय आवाजांचे अनेक पर्याय हे टूल उपलब्ध करून देते. त्यामुळे  त्याचे कौतुक होत आहे.

आधी टीका; आता कौतुकाचा वर्षाव

भारतीय भाषांना केंद्रस्थानी ठेवून ‘एआय’ मॉडेल विकसित करण्यासाठी ‘सर्वम’ची स्थापना करण्यात आली. त्यावेळी या कंपनीच्या मर्यादित क्षमतेवर आणि धोरणांवर टीका करण्यात आली होती. तंत्रज्ञान क्षेत्रातील अभ्यासक आणि वक्ते डीडी दास यांनी ‘सर्वम’च्या संकुचित कार्यक्षेत्राबद्दल नाराजी व्यक्त करताना केवळ भारतीय भाषांपुरतेच त्याला सक्षम करण्याच्या निर्णयावर ताशेरे ओढले होते. मात्र, काही दिवसांपूर्वी त्यांनी जाहीरपणे आपली चूक मान्य केली. ‘या एआयकडे भारतीय भाषांसाठीचे सर्वोत्तम ‘टेक्स्ट टू स्पीच’, ‘स्पीच टू टेक्स्ट’ आणि ‘ओसीआर’ टूल आहेत.  जागतिक दर्जाचे हे टूल अतिशय महत्त्वाचे असून किमतीच्या बाबतीतही ते माफक आहेत.’ असे ते म्हणाले.