कुतूहल: संभाषण आकलनाचा पाया

गणिती किंवा सांख्यिकी प्रारूपे ही कोणत्याही सॉफ्टवेअरचा पाया असतात. संभाषण आकलनात अगदी सुरुवातीला डायनॅमिक टाइम वार्पिग (डीटीडब्ल्यू) हे प्रारूप (मॉडेल) वापरले जात असे.

गणिती किंवा सांख्यिकी प्रारूपे ही कोणत्याही सॉफ्टवेअरचा पाया असतात. संभाषण आकलनात अगदी सुरुवातीला डायनॅमिक टाइम वार्पिग (डीटीडब्ल्यू) हे प्रारूप (मॉडेल) वापरले जात असे. बोलण्याचा वेग कमी झाला किंवा वाढला तरी आकलनाची अचूकता कायम राखण्यास हे प्रारूप मदत करीत असे. कालांतराने हिडन मार्कोव्ह मॉडेल (एचएमएम) या प्रारूपाने डीटीडब्ल्यू प्रारूपाची जागा घेतली. हे सांख्यिकी प्रारूप आणि त्याच्याबरोबर इतर गणिती तंत्रे संभाषण आकलनात वापरण्यास सुरुवात झाली. याचा सोपेपणा आणि त्याला प्रशिक्षण देण्यातील सुलभता यामुळे हे प्रारूप मोठय़ा प्रमाणात वापरले गेले.

१९८०च्या सुमाराला संभाषण आकलनाच्या क्षितिजावर आर्टिफिशियल न्यूरल नेटवर्क (एएनएन) तंत्राचा उदय झाला आणि कृत्रिम बुद्धिमत्तेच्या यंत्र-अध्ययनाच्या शाखेने या क्षेत्रात पाय रोवण्यास सुरुवात केली. फोनीम वर्गवारी, शब्द आकलन, दृकश्राव्य फितीतील भाषा आकलन इत्यादी अनेक कामांमध्ये यांचा वापर सुरू झाला. याच्या सुधारित आवृत्ती म्हणजे ‘डीप फीडफॉरवर्ड अँड रिकरंट न्यूरल नेटवर्क’ तंत्रज्ञान. याचा उपयोग साधारणपणे २०१० पासून सुरू झाला. या यंत्र-अध्ययन तंत्रज्ञानाने न्यूरल नेटवर्कची प्रशिक्षण क्षमता प्रचंड प्रमाणात वाढली.

आणखी वाचा

यापुढे IPL मोफत पाहता येणार? जिओ सिनेमाही आता नेटफ्लिक्स, प्राइमप्रमाणे सबस्क्रिप्शनच्या वाटेवर

Can eggs help diabetic patient to control blood sugar

मधुमेही व्यक्तींनी अंडी खाल्ल्यास रक्तातील साखरेची पातळी नियंत्रणात राहते का? जाणून घ्या, तज्ज्ञ काय सांगतात..

What is Microsoft warning to India about China regarding AI

‘एआय’च्या माध्यमातून निवडणुकांमध्ये गोंधळ उडवणे शक्य? चीनबाबत मायक्रोसॉफ्टचा भारताला कोणता इशारा?

कुतूहल : डीप लर्निग – सखोल शिक्षण म्हणजे काय?

आतापर्यंतच्या प्रारूपांमध्ये उच्चारण, ध्वनिक (अकूस्टिक) आणि भाषा या तिघांसाठी तीन प्रारूपे वापरली जात. पण २०१४ मध्ये आलेल्या ‘एंड टू एंड ऑटोमॅटिक स्पीच रेकग्निशन’ या प्रारूपाने हे तीनही एकत्र केले. संभाषण आकलनातील अचूकता ही मोठा संदर्भसाठा आणि त्यातून अचूक जुळणारा शब्द निवडण्यासाठी असलेले प्रारूप यावर अवलंबून असते. शब्द निवडण्यासाठी पूर्वी ट्राय-ग्रॅम तंत्राचा वापर करीत. यात तीन सर्वाधिक जुळणाऱ्या किंवा सर्वाधिक वापरल्या जाणाऱ्या शब्दांचा समुच्चय निवडला जात असे. नवीन प्रारूपे आता एन-ग्रॅम तंत्राचा म्हणजे अनेक शब्द किंवा फोनीम यांच्या समुच्चयाचा वापर करतात.

अचूकता मोजण्यासाठी ‘वर्ड एरर रेट’ म्हणजे चुकीच्या शब्दांचा दर हे मापन प्रचलित आहे. नवीन प्रारूपे आणि नवीन तंत्रे, प्रचंड शब्दसाठा तसेच वेगवान प्रक्रिया, यामुळे संभाषण आकलन यंत्रणा आता तात्काळ प्रतिसाद देतात आणि त्यांचा वर्ड एरर रेट १२ टक्के ते २० टक्के आहे. म्हणजेच त्यांची अचूकता आता सुमारे ८० टक्के ते ८८ टक्के आहे.

– शशिकांत धारणे, मराठी विज्ञान परिषद

मराठीतील सर्व नवनीत बातम्या वाचा. मराठी ताज्या बातम्या (Latest Marathi News) वाचण्यासाठी डाउनलोड करा लोकसत्ताचं Marathi News App.

Web Title: Loksatta kutuhal foundations of conversational comprehension amy

First published on: 20-03-2024 at 00:10 IST