20 November 2017

News Flash

बोला अमृत बोला

विश्वनिर्मात्याने मनुष्याच्या मुखी वाणी दिली आणि या मनुष्याने यंत्रांना बोलतं केलं.

लोकसत्ता टीम | Updated: August 15, 2017 12:54 AM

स्पीच रिकग्निशन जगभरात प्रचलित झालं आहे.

आपुलीया बळे नाही मी बोलत।

सखा कृपावंत वाचा त्याची

आमच्या मुखातून जे बोल बाहेर येतात ते आमचे नाहीच मुळी. या वाणीमागे, विचारांमागे साक्षात् विश्वनिर्माता परमेश्वर आहे. संत तुकारामांची ही अभंगवाणी तंत्रज्ञानाच्या क्षेत्रानेही उचलली. विश्वनिर्मात्याने मनुष्याच्या मुखी वाणी दिली आणि या मनुष्याने यंत्रांना बोलतं केलं. ज्याचा बोलविता धनी वेगळा होता, तो मनुष्य स्वत: यंत्रांचा बोलविता धनी झाला. हातांनी, बोटांनी यंत्रांना आज्ञा देण्याची प्रथा तर यंत्र विकसित व्हायला लागली तेव्हापासूनच आहेत. पण आता जमाना आहे तो ‘बोले तैसा चाले’ यंत्रांचा. म्हणजेच तांत्रिक भाषेत ज्याला स्पीच रिकग्निशन म्हणतात त्याचा.

घरात, ऑफिसेसमध्ये, मोबाइल फोन्सना, कम्प्युटर्सना, इतकंच नाही तर अगदी टीव्हीलाही बोलून आज्ञा देण्याचं तंत्रज्ञान विकसित झालेलं आहे. नुसतंच विकसित नाही तर रोजच्या वापरातही येऊ  लागलंय. अशी अनेक सॉफ्टवेअर्स आहेत जी डिक्टेशनवर म्हणजेच मौखिक आज्ञेवर चालतात. एखादी फाइल ओपन करणं, ईमेल लिहिणं, पाठवणं अशी अनेक कामं ही कम्प्युटर, मोबाइलला हात न लावता करता येताहेत. व्यंग असणाऱ्या व्यक्तीही या तंत्रज्ञानाचा वापर करीत आहेत. खरं तर या तंत्रज्ञानाचा फायदा शारीरिक व्यंग, दृष्टिहीन व्यक्तींना होत आहे. त्यामुळे व्हॉइस रिकग्निशन किंवा स्पीच रिकग्निशन जगभरात प्रचलित झालं आहे.

सध्या अस्तित्वात असणारे प्रोग्राम्स दोन विभागांत मोडले जातात.

स्मॉल व्होकॅब्युलरी/ बहुवापरकर्ते

ही यंत्रणा मुख्यत्वे ऑटोमेटेड टेलिफोनिक आन्सरिंगमध्ये केली जाते. विविध शैली आणि बोलण्याची हेल असणारे वापरकर्ते असले तरी त्यांची बोली ही यंत्रणा व्यवस्थित समजू शकते. मात्र याचा वापर हा कमी आणि तुलनेने सोप्या आज्ञा असणाऱ्या प्रकारातच केला जातो.

लार्ज व्होकॅब्युलरी/ मर्यादित वापरकर्ते

औद्योगिक क्षेत्रात, कॉर्पोरेटमध्ये या यंत्रणांचा वापर मोठय़ा प्रमाणात होतो. तसेच वापरकर्त्यांची संख्या कमी असेल तर ही यंत्रणा अधिक उत्तमरीत्या काम करू शकते. या यंत्रणेत लाखोंच्या संख्येने शब्द आधीच सेव्ह केलेले असतात.

पण मुळात या तंत्रज्ञानामागचं खरं लॉजिक किंवा कार्यपद्धती आहे ती स्पीच टू डेटा कन्व्हर्जनमध्ये. बोललेल्या वाक्यांचं टेक्स्टमध्ये किंवा कम्प्युटरच्या आज्ञेमध्ये परिवर्तन होत असताना अनेक घडामोडी असतात. आणि हे परिवर्तन होताना अनेक गुंतागुंतीच्या प्रक्रिया होत असतात. आपण जेव्हा बोलतो तेव्हा आपण हवेत कंपनं निर्माण करतो. ही कंपनं मग अ‍ॅनालॉग टू डिजिटल कन्व्हर्टरच्या (एडीसी) माध्यमातून डिजिटल डेटामध्ये परिवर्तित केली जातात. म्हणजेच कम्प्युटरला समजेल अशा भाषेत त्यांचं परिवर्तन केलं जातं. निर्माण झालेल्या ध्वनिलहरींचा वेध घेत त्या लहरीचं मोजमाप घेतलं जातं. या कन्व्हर्टरमधल्या सिस्टीम्स डिजिटाइज्ड ध्वनीला फिल्टर करून त्यातील नको असलेला ध्वनी काढून टाकतो. आणि त्यानंतर फ्रिक्वेन्सीच्या बँडनुसार त्याची विभागणी केली जाते. याशिवाय हा कन्व्हर्टर आणखी एक काम करतो. प्रत्येक माणसाचा आवाज हा एकसारखा नसतो. आणि माणसाच्या आवाजाचा वेगही एकसारखा नसतो. सिस्टीमच्या मेमरीमध्ये काही साउंड सॅम्पल्स स्टोअर केलेली असतात. त्या सॅम्पल्सशी माणसाचा आवाज जुळतोय की नाही हे तपासलं जातं.

त्यानंतर एकमेकांशी चटकन जुळणाऱ्या अशा अक्षरांचा, शब्दांचा वेध घेतला जातो आणि त्यावर आधारित छोटी छोटी सेगमेंट्स केली जातात. ही सेगमेट्स प्रोग्रामकडून फोनिम्सशी जुळवली जातात. फोनिम म्हणजे ध्वनिलेखन. कुठल्याही भाषेचा सर्वात छोटा घटक म्हणजे ध्वनिलेखन किंवा फोनिम. इंग्रजी भाषेत ४० फोनिम्स असल्याचं सांगितलं जातं. थोडक्यात म्हणजे उच्चारावरून एकसारखे वाटणारे शब्द म्हणजे फोनिम्स असा त्याचा ढोबळ अर्थ आहे. तर या फोनिम्सवरून नेमकी आज्ञा काय आहे ती तपासली जाते. सिस्टीममध्ये सेव्ह केलेल्या त्या फोनिम्स जुळल्या की मग ती आज्ञा प्रोग्रामकडून समजली जाते. आणि त्यानुसार मग तो प्रक्रिया सुरू करतो. हे सगळं ध्वनिलहरींचं डिजिटायझेशन झाल्यानंतर होतं. डिजिटायझेशन म्हणजे लहरींना ० आणि १ च्या भाषेत आणणं.

आत्ताच्या घडीला गाडय़ा, मोबाइल फोन्स, लॅपटॉप्स, टीव्ही अशा अनेक ठिकाणी या यंत्रणेचा वापर केला जातो. गुगल स्पीच रिकग्निशन, अ‍ॅपल सिरीसारख्या तंत्रज्ञानाने तर बोटांचा वापरच कमी केला आहे. आयर्न मॅनमधल्या जाव्‍‌र्हिससारखं केवळ व्हॉइस कमांडवर चालणाऱ्या यंत्राकडे आपला प्रवास सुरू आहे.

pushkar.samant@gmail.com

First Published on August 15, 2017 12:54 am

Web Title: voice control software reviews