आपुलीया बळे नाही मी बोलत।

या बातमीसह सर्व प्रीमियम कंटेंट वाचण्यासाठी साइन-इन करा

सखा कृपावंत वाचा त्याची

आमच्या मुखातून जे बोल बाहेर येतात ते आमचे नाहीच मुळी. या वाणीमागे, विचारांमागे साक्षात् विश्वनिर्माता परमेश्वर आहे. संत तुकारामांची ही अभंगवाणी तंत्रज्ञानाच्या क्षेत्रानेही उचलली. विश्वनिर्मात्याने मनुष्याच्या मुखी वाणी दिली आणि या मनुष्याने यंत्रांना बोलतं केलं. ज्याचा बोलविता धनी वेगळा होता, तो मनुष्य स्वत: यंत्रांचा बोलविता धनी झाला. हातांनी, बोटांनी यंत्रांना आज्ञा देण्याची प्रथा तर यंत्र विकसित व्हायला लागली तेव्हापासूनच आहेत. पण आता जमाना आहे तो ‘बोले तैसा चाले’ यंत्रांचा. म्हणजेच तांत्रिक भाषेत ज्याला स्पीच रिकग्निशन म्हणतात त्याचा.

घरात, ऑफिसेसमध्ये, मोबाइल फोन्सना, कम्प्युटर्सना, इतकंच नाही तर अगदी टीव्हीलाही बोलून आज्ञा देण्याचं तंत्रज्ञान विकसित झालेलं आहे. नुसतंच विकसित नाही तर रोजच्या वापरातही येऊ  लागलंय. अशी अनेक सॉफ्टवेअर्स आहेत जी डिक्टेशनवर म्हणजेच मौखिक आज्ञेवर चालतात. एखादी फाइल ओपन करणं, ईमेल लिहिणं, पाठवणं अशी अनेक कामं ही कम्प्युटर, मोबाइलला हात न लावता करता येताहेत. व्यंग असणाऱ्या व्यक्तीही या तंत्रज्ञानाचा वापर करीत आहेत. खरं तर या तंत्रज्ञानाचा फायदा शारीरिक व्यंग, दृष्टिहीन व्यक्तींना होत आहे. त्यामुळे व्हॉइस रिकग्निशन किंवा स्पीच रिकग्निशन जगभरात प्रचलित झालं आहे.

सध्या अस्तित्वात असणारे प्रोग्राम्स दोन विभागांत मोडले जातात.

स्मॉल व्होकॅब्युलरी/ बहुवापरकर्ते

ही यंत्रणा मुख्यत्वे ऑटोमेटेड टेलिफोनिक आन्सरिंगमध्ये केली जाते. विविध शैली आणि बोलण्याची हेल असणारे वापरकर्ते असले तरी त्यांची बोली ही यंत्रणा व्यवस्थित समजू शकते. मात्र याचा वापर हा कमी आणि तुलनेने सोप्या आज्ञा असणाऱ्या प्रकारातच केला जातो.

लार्ज व्होकॅब्युलरी/ मर्यादित वापरकर्ते

औद्योगिक क्षेत्रात, कॉर्पोरेटमध्ये या यंत्रणांचा वापर मोठय़ा प्रमाणात होतो. तसेच वापरकर्त्यांची संख्या कमी असेल तर ही यंत्रणा अधिक उत्तमरीत्या काम करू शकते. या यंत्रणेत लाखोंच्या संख्येने शब्द आधीच सेव्ह केलेले असतात.

पण मुळात या तंत्रज्ञानामागचं खरं लॉजिक किंवा कार्यपद्धती आहे ती स्पीच टू डेटा कन्व्हर्जनमध्ये. बोललेल्या वाक्यांचं टेक्स्टमध्ये किंवा कम्प्युटरच्या आज्ञेमध्ये परिवर्तन होत असताना अनेक घडामोडी असतात. आणि हे परिवर्तन होताना अनेक गुंतागुंतीच्या प्रक्रिया होत असतात. आपण जेव्हा बोलतो तेव्हा आपण हवेत कंपनं निर्माण करतो. ही कंपनं मग अ‍ॅनालॉग टू डिजिटल कन्व्हर्टरच्या (एडीसी) माध्यमातून डिजिटल डेटामध्ये परिवर्तित केली जातात. म्हणजेच कम्प्युटरला समजेल अशा भाषेत त्यांचं परिवर्तन केलं जातं. निर्माण झालेल्या ध्वनिलहरींचा वेध घेत त्या लहरीचं मोजमाप घेतलं जातं. या कन्व्हर्टरमधल्या सिस्टीम्स डिजिटाइज्ड ध्वनीला फिल्टर करून त्यातील नको असलेला ध्वनी काढून टाकतो. आणि त्यानंतर फ्रिक्वेन्सीच्या बँडनुसार त्याची विभागणी केली जाते. याशिवाय हा कन्व्हर्टर आणखी एक काम करतो. प्रत्येक माणसाचा आवाज हा एकसारखा नसतो. आणि माणसाच्या आवाजाचा वेगही एकसारखा नसतो. सिस्टीमच्या मेमरीमध्ये काही साउंड सॅम्पल्स स्टोअर केलेली असतात. त्या सॅम्पल्सशी माणसाचा आवाज जुळतोय की नाही हे तपासलं जातं.

त्यानंतर एकमेकांशी चटकन जुळणाऱ्या अशा अक्षरांचा, शब्दांचा वेध घेतला जातो आणि त्यावर आधारित छोटी छोटी सेगमेंट्स केली जातात. ही सेगमेट्स प्रोग्रामकडून फोनिम्सशी जुळवली जातात. फोनिम म्हणजे ध्वनिलेखन. कुठल्याही भाषेचा सर्वात छोटा घटक म्हणजे ध्वनिलेखन किंवा फोनिम. इंग्रजी भाषेत ४० फोनिम्स असल्याचं सांगितलं जातं. थोडक्यात म्हणजे उच्चारावरून एकसारखे वाटणारे शब्द म्हणजे फोनिम्स असा त्याचा ढोबळ अर्थ आहे. तर या फोनिम्सवरून नेमकी आज्ञा काय आहे ती तपासली जाते. सिस्टीममध्ये सेव्ह केलेल्या त्या फोनिम्स जुळल्या की मग ती आज्ञा प्रोग्रामकडून समजली जाते. आणि त्यानुसार मग तो प्रक्रिया सुरू करतो. हे सगळं ध्वनिलहरींचं डिजिटायझेशन झाल्यानंतर होतं. डिजिटायझेशन म्हणजे लहरींना ० आणि १ च्या भाषेत आणणं.

आत्ताच्या घडीला गाडय़ा, मोबाइल फोन्स, लॅपटॉप्स, टीव्ही अशा अनेक ठिकाणी या यंत्रणेचा वापर केला जातो. गुगल स्पीच रिकग्निशन, अ‍ॅपल सिरीसारख्या तंत्रज्ञानाने तर बोटांचा वापरच कमी केला आहे. आयर्न मॅनमधल्या जाव्‍‌र्हिससारखं केवळ व्हॉइस कमांडवर चालणाऱ्या यंत्राकडे आपला प्रवास सुरू आहे.

pushkar.samant@gmail.com

मराठीतील सर्व टेकKNOW बातम्या वाचा. मराठी ताज्या बातम्या (Latest Marathi News) वाचण्यासाठी डाउनलोड करा लोकसत्ताचं Marathi News App.
Web Title: Voice control software reviews
First published on: 15-08-2017 at 00:54 IST