14 August 2020

News Flash

बोला अमृत बोला

विश्वनिर्मात्याने मनुष्याच्या मुखी वाणी दिली आणि या मनुष्याने यंत्रांना बोलतं केलं.

स्पीच रिकग्निशन जगभरात प्रचलित झालं आहे.

आपुलीया बळे नाही मी बोलत।

सखा कृपावंत वाचा त्याची

आमच्या मुखातून जे बोल बाहेर येतात ते आमचे नाहीच मुळी. या वाणीमागे, विचारांमागे साक्षात् विश्वनिर्माता परमेश्वर आहे. संत तुकारामांची ही अभंगवाणी तंत्रज्ञानाच्या क्षेत्रानेही उचलली. विश्वनिर्मात्याने मनुष्याच्या मुखी वाणी दिली आणि या मनुष्याने यंत्रांना बोलतं केलं. ज्याचा बोलविता धनी वेगळा होता, तो मनुष्य स्वत: यंत्रांचा बोलविता धनी झाला. हातांनी, बोटांनी यंत्रांना आज्ञा देण्याची प्रथा तर यंत्र विकसित व्हायला लागली तेव्हापासूनच आहेत. पण आता जमाना आहे तो ‘बोले तैसा चाले’ यंत्रांचा. म्हणजेच तांत्रिक भाषेत ज्याला स्पीच रिकग्निशन म्हणतात त्याचा.

घरात, ऑफिसेसमध्ये, मोबाइल फोन्सना, कम्प्युटर्सना, इतकंच नाही तर अगदी टीव्हीलाही बोलून आज्ञा देण्याचं तंत्रज्ञान विकसित झालेलं आहे. नुसतंच विकसित नाही तर रोजच्या वापरातही येऊ  लागलंय. अशी अनेक सॉफ्टवेअर्स आहेत जी डिक्टेशनवर म्हणजेच मौखिक आज्ञेवर चालतात. एखादी फाइल ओपन करणं, ईमेल लिहिणं, पाठवणं अशी अनेक कामं ही कम्प्युटर, मोबाइलला हात न लावता करता येताहेत. व्यंग असणाऱ्या व्यक्तीही या तंत्रज्ञानाचा वापर करीत आहेत. खरं तर या तंत्रज्ञानाचा फायदा शारीरिक व्यंग, दृष्टिहीन व्यक्तींना होत आहे. त्यामुळे व्हॉइस रिकग्निशन किंवा स्पीच रिकग्निशन जगभरात प्रचलित झालं आहे.

सध्या अस्तित्वात असणारे प्रोग्राम्स दोन विभागांत मोडले जातात.

स्मॉल व्होकॅब्युलरी/ बहुवापरकर्ते

ही यंत्रणा मुख्यत्वे ऑटोमेटेड टेलिफोनिक आन्सरिंगमध्ये केली जाते. विविध शैली आणि बोलण्याची हेल असणारे वापरकर्ते असले तरी त्यांची बोली ही यंत्रणा व्यवस्थित समजू शकते. मात्र याचा वापर हा कमी आणि तुलनेने सोप्या आज्ञा असणाऱ्या प्रकारातच केला जातो.

लार्ज व्होकॅब्युलरी/ मर्यादित वापरकर्ते

औद्योगिक क्षेत्रात, कॉर्पोरेटमध्ये या यंत्रणांचा वापर मोठय़ा प्रमाणात होतो. तसेच वापरकर्त्यांची संख्या कमी असेल तर ही यंत्रणा अधिक उत्तमरीत्या काम करू शकते. या यंत्रणेत लाखोंच्या संख्येने शब्द आधीच सेव्ह केलेले असतात.

पण मुळात या तंत्रज्ञानामागचं खरं लॉजिक किंवा कार्यपद्धती आहे ती स्पीच टू डेटा कन्व्हर्जनमध्ये. बोललेल्या वाक्यांचं टेक्स्टमध्ये किंवा कम्प्युटरच्या आज्ञेमध्ये परिवर्तन होत असताना अनेक घडामोडी असतात. आणि हे परिवर्तन होताना अनेक गुंतागुंतीच्या प्रक्रिया होत असतात. आपण जेव्हा बोलतो तेव्हा आपण हवेत कंपनं निर्माण करतो. ही कंपनं मग अ‍ॅनालॉग टू डिजिटल कन्व्हर्टरच्या (एडीसी) माध्यमातून डिजिटल डेटामध्ये परिवर्तित केली जातात. म्हणजेच कम्प्युटरला समजेल अशा भाषेत त्यांचं परिवर्तन केलं जातं. निर्माण झालेल्या ध्वनिलहरींचा वेध घेत त्या लहरीचं मोजमाप घेतलं जातं. या कन्व्हर्टरमधल्या सिस्टीम्स डिजिटाइज्ड ध्वनीला फिल्टर करून त्यातील नको असलेला ध्वनी काढून टाकतो. आणि त्यानंतर फ्रिक्वेन्सीच्या बँडनुसार त्याची विभागणी केली जाते. याशिवाय हा कन्व्हर्टर आणखी एक काम करतो. प्रत्येक माणसाचा आवाज हा एकसारखा नसतो. आणि माणसाच्या आवाजाचा वेगही एकसारखा नसतो. सिस्टीमच्या मेमरीमध्ये काही साउंड सॅम्पल्स स्टोअर केलेली असतात. त्या सॅम्पल्सशी माणसाचा आवाज जुळतोय की नाही हे तपासलं जातं.

त्यानंतर एकमेकांशी चटकन जुळणाऱ्या अशा अक्षरांचा, शब्दांचा वेध घेतला जातो आणि त्यावर आधारित छोटी छोटी सेगमेंट्स केली जातात. ही सेगमेट्स प्रोग्रामकडून फोनिम्सशी जुळवली जातात. फोनिम म्हणजे ध्वनिलेखन. कुठल्याही भाषेचा सर्वात छोटा घटक म्हणजे ध्वनिलेखन किंवा फोनिम. इंग्रजी भाषेत ४० फोनिम्स असल्याचं सांगितलं जातं. थोडक्यात म्हणजे उच्चारावरून एकसारखे वाटणारे शब्द म्हणजे फोनिम्स असा त्याचा ढोबळ अर्थ आहे. तर या फोनिम्सवरून नेमकी आज्ञा काय आहे ती तपासली जाते. सिस्टीममध्ये सेव्ह केलेल्या त्या फोनिम्स जुळल्या की मग ती आज्ञा प्रोग्रामकडून समजली जाते. आणि त्यानुसार मग तो प्रक्रिया सुरू करतो. हे सगळं ध्वनिलहरींचं डिजिटायझेशन झाल्यानंतर होतं. डिजिटायझेशन म्हणजे लहरींना ० आणि १ च्या भाषेत आणणं.

आत्ताच्या घडीला गाडय़ा, मोबाइल फोन्स, लॅपटॉप्स, टीव्ही अशा अनेक ठिकाणी या यंत्रणेचा वापर केला जातो. गुगल स्पीच रिकग्निशन, अ‍ॅपल सिरीसारख्या तंत्रज्ञानाने तर बोटांचा वापरच कमी केला आहे. आयर्न मॅनमधल्या जाव्‍‌र्हिससारखं केवळ व्हॉइस कमांडवर चालणाऱ्या यंत्राकडे आपला प्रवास सुरू आहे.

pushkar.samant@gmail.com

लोकसत्ता आता टेलीग्रामवर आहे. आमचं चॅनेल (@Loksatta) जॉइन करण्यासाठी येथे क्लिक करा आणि ताज्या व महत्त्वाच्या बातम्या मिळवा.

First Published on August 15, 2017 12:54 am

Web Title: voice control software reviews
Next Stories
1 ‘साऊंड वन’च्या पॉवरबँक
2 फिरता संगणक
3 समाजमाध्यमे आणि सायबर सुरक्षा
Just Now!
X