गणिती किंवा सांख्यिकी प्रारूपे ही कोणत्याही सॉफ्टवेअरचा पाया असतात. संभाषण आकलनात अगदी सुरुवातीला डायनॅमिक टाइम वार्पिग (डीटीडब्ल्यू) हे प्रारूप (मॉडेल) वापरले जात असे. बोलण्याचा वेग कमी झाला किंवा वाढला तरी आकलनाची अचूकता कायम राखण्यास हे प्रारूप मदत करीत असे. कालांतराने हिडन मार्कोव्ह मॉडेल (एचएमएम) या प्रारूपाने डीटीडब्ल्यू प्रारूपाची जागा घेतली. हे सांख्यिकी प्रारूप आणि त्याच्याबरोबर इतर गणिती तंत्रे संभाषण आकलनात वापरण्यास सुरुवात झाली. याचा सोपेपणा आणि त्याला प्रशिक्षण देण्यातील सुलभता यामुळे हे प्रारूप मोठय़ा प्रमाणात वापरले गेले.

१९८०च्या सुमाराला संभाषण आकलनाच्या क्षितिजावर आर्टिफिशियल न्यूरल नेटवर्क (एएनएन) तंत्राचा उदय झाला आणि कृत्रिम बुद्धिमत्तेच्या यंत्र-अध्ययनाच्या शाखेने या क्षेत्रात पाय रोवण्यास सुरुवात केली. फोनीम वर्गवारी, शब्द आकलन, दृकश्राव्य फितीतील भाषा आकलन इत्यादी अनेक कामांमध्ये यांचा वापर सुरू झाला. याच्या सुधारित आवृत्ती म्हणजे ‘डीप फीडफॉरवर्ड अँड रिकरंट न्यूरल नेटवर्क’ तंत्रज्ञान. याचा उपयोग साधारणपणे २०१० पासून सुरू झाला. या यंत्र-अध्ययन तंत्रज्ञानाने न्यूरल नेटवर्कची प्रशिक्षण क्षमता प्रचंड प्रमाणात वाढली.

JioCinema IPL Free
यापुढे IPL मोफत पाहता येणार? जिओ सिनेमाही आता नेटफ्लिक्स, प्राइमप्रमाणे सबस्क्रिप्शनच्या वाटेवर
Can eggs help diabetic patient to control blood sugar
मधुमेही व्यक्तींनी अंडी खाल्ल्यास रक्तातील साखरेची पातळी नियंत्रणात राहते का? जाणून घ्या, तज्ज्ञ काय सांगतात..
What is Microsoft warning to India about China regarding AI
‘एआय’च्या माध्यमातून निवडणुकांमध्ये गोंधळ उडवणे शक्य? चीनबाबत मायक्रोसॉफ्टचा भारताला कोणता इशारा?
deep learning definition
कुतूहल : डीप लर्निग – सखोल शिक्षण म्हणजे काय?

आतापर्यंतच्या प्रारूपांमध्ये उच्चारण, ध्वनिक (अकूस्टिक) आणि भाषा या तिघांसाठी तीन प्रारूपे वापरली जात. पण २०१४ मध्ये आलेल्या ‘एंड टू एंड ऑटोमॅटिक स्पीच रेकग्निशन’ या प्रारूपाने हे तीनही एकत्र केले. संभाषण आकलनातील अचूकता ही मोठा संदर्भसाठा आणि त्यातून अचूक जुळणारा शब्द निवडण्यासाठी असलेले प्रारूप यावर अवलंबून असते. शब्द निवडण्यासाठी पूर्वी ट्राय-ग्रॅम तंत्राचा वापर करीत. यात तीन सर्वाधिक जुळणाऱ्या किंवा सर्वाधिक वापरल्या जाणाऱ्या शब्दांचा समुच्चय निवडला जात असे. नवीन प्रारूपे आता एन-ग्रॅम तंत्राचा म्हणजे अनेक शब्द किंवा फोनीम यांच्या समुच्चयाचा वापर करतात.

अचूकता मोजण्यासाठी ‘वर्ड एरर रेट’ म्हणजे चुकीच्या शब्दांचा दर हे मापन प्रचलित आहे. नवीन प्रारूपे आणि नवीन तंत्रे, प्रचंड शब्दसाठा तसेच वेगवान प्रक्रिया, यामुळे संभाषण आकलन यंत्रणा आता तात्काळ प्रतिसाद देतात आणि त्यांचा वर्ड एरर रेट १२ टक्के ते २० टक्के आहे. म्हणजेच त्यांची अचूकता आता सुमारे ८० टक्के ते ८८ टक्के आहे.

– शशिकांत धारणे, मराठी विज्ञान परिषद