गणिती किंवा सांख्यिकी प्रारूपे ही कोणत्याही सॉफ्टवेअरचा पाया असतात. संभाषण आकलनात अगदी सुरुवातीला डायनॅमिक टाइम वार्पिग (डीटीडब्ल्यू) हे प्रारूप (मॉडेल) वापरले जात असे. बोलण्याचा वेग कमी झाला किंवा वाढला तरी आकलनाची अचूकता कायम राखण्यास हे प्रारूप मदत करीत असे. कालांतराने हिडन मार्कोव्ह मॉडेल (एचएमएम) या प्रारूपाने डीटीडब्ल्यू प्रारूपाची जागा घेतली. हे सांख्यिकी प्रारूप आणि त्याच्याबरोबर इतर गणिती तंत्रे संभाषण आकलनात वापरण्यास सुरुवात झाली. याचा सोपेपणा आणि त्याला प्रशिक्षण देण्यातील सुलभता यामुळे हे प्रारूप मोठय़ा प्रमाणात वापरले गेले. १९८०च्या सुमाराला संभाषण आकलनाच्या क्षितिजावर आर्टिफिशियल न्यूरल नेटवर्क (एएनएन) तंत्राचा उदय झाला आणि कृत्रिम बुद्धिमत्तेच्या यंत्र-अध्ययनाच्या शाखेने या क्षेत्रात पाय रोवण्यास सुरुवात केली. फोनीम वर्गवारी, शब्द आकलन, दृकश्राव्य फितीतील भाषा आकलन इत्यादी अनेक कामांमध्ये यांचा वापर सुरू झाला. याच्या सुधारित आवृत्ती म्हणजे ‘डीप फीडफॉरवर्ड अँड रिकरंट न्यूरल नेटवर्क’ तंत्रज्ञान. याचा उपयोग साधारणपणे २०१० पासून सुरू झाला. या यंत्र-अध्ययन तंत्रज्ञानाने न्यूरल नेटवर्कची प्रशिक्षण क्षमता प्रचंड प्रमाणात वाढली. आतापर्यंतच्या प्रारूपांमध्ये उच्चारण, ध्वनिक (अकूस्टिक) आणि भाषा या तिघांसाठी तीन प्रारूपे वापरली जात. पण २०१४ मध्ये आलेल्या ‘एंड टू एंड ऑटोमॅटिक स्पीच रेकग्निशन’ या प्रारूपाने हे तीनही एकत्र केले. संभाषण आकलनातील अचूकता ही मोठा संदर्भसाठा आणि त्यातून अचूक जुळणारा शब्द निवडण्यासाठी असलेले प्रारूप यावर अवलंबून असते. शब्द निवडण्यासाठी पूर्वी ट्राय-ग्रॅम तंत्राचा वापर करीत. यात तीन सर्वाधिक जुळणाऱ्या किंवा सर्वाधिक वापरल्या जाणाऱ्या शब्दांचा समुच्चय निवडला जात असे. नवीन प्रारूपे आता एन-ग्रॅम तंत्राचा म्हणजे अनेक शब्द किंवा फोनीम यांच्या समुच्चयाचा वापर करतात. अचूकता मोजण्यासाठी ‘वर्ड एरर रेट’ म्हणजे चुकीच्या शब्दांचा दर हे मापन प्रचलित आहे. नवीन प्रारूपे आणि नवीन तंत्रे, प्रचंड शब्दसाठा तसेच वेगवान प्रक्रिया, यामुळे संभाषण आकलन यंत्रणा आता तात्काळ प्रतिसाद देतात आणि त्यांचा वर्ड एरर रेट १२ टक्के ते २० टक्के आहे. म्हणजेच त्यांची अचूकता आता सुमारे ८० टक्के ते ८८ टक्के आहे. - शशिकांत धारणे, मराठी विज्ञान परिषद