आपुलीया बळे नाही मी बोलत।

सखा कृपावंत वाचा त्याची

आमच्या मुखातून जे बोल बाहेर येतात ते आमचे नाहीच मुळी. या वाणीमागे, विचारांमागे साक्षात् विश्वनिर्माता परमेश्वर आहे. संत तुकारामांची ही अभंगवाणी तंत्रज्ञानाच्या क्षेत्रानेही उचलली. विश्वनिर्मात्याने मनुष्याच्या मुखी वाणी दिली आणि या मनुष्याने यंत्रांना बोलतं केलं. ज्याचा बोलविता धनी वेगळा होता, तो मनुष्य स्वत: यंत्रांचा बोलविता धनी झाला. हातांनी, बोटांनी यंत्रांना आज्ञा देण्याची प्रथा तर यंत्र विकसित व्हायला लागली तेव्हापासूनच आहेत. पण आता जमाना आहे तो ‘बोले तैसा चाले’ यंत्रांचा. म्हणजेच तांत्रिक भाषेत ज्याला स्पीच रिकग्निशन म्हणतात त्याचा.

घरात, ऑफिसेसमध्ये, मोबाइल फोन्सना, कम्प्युटर्सना, इतकंच नाही तर अगदी टीव्हीलाही बोलून आज्ञा देण्याचं तंत्रज्ञान विकसित झालेलं आहे. नुसतंच विकसित नाही तर रोजच्या वापरातही येऊ  लागलंय. अशी अनेक सॉफ्टवेअर्स आहेत जी डिक्टेशनवर म्हणजेच मौखिक आज्ञेवर चालतात. एखादी फाइल ओपन करणं, ईमेल लिहिणं, पाठवणं अशी अनेक कामं ही कम्प्युटर, मोबाइलला हात न लावता करता येताहेत. व्यंग असणाऱ्या व्यक्तीही या तंत्रज्ञानाचा वापर करीत आहेत. खरं तर या तंत्रज्ञानाचा फायदा शारीरिक व्यंग, दृष्टिहीन व्यक्तींना होत आहे. त्यामुळे व्हॉइस रिकग्निशन किंवा स्पीच रिकग्निशन जगभरात प्रचलित झालं आहे.

सध्या अस्तित्वात असणारे प्रोग्राम्स दोन विभागांत मोडले जातात.

स्मॉल व्होकॅब्युलरी/ बहुवापरकर्ते

ही यंत्रणा मुख्यत्वे ऑटोमेटेड टेलिफोनिक आन्सरिंगमध्ये केली जाते. विविध शैली आणि बोलण्याची हेल असणारे वापरकर्ते असले तरी त्यांची बोली ही यंत्रणा व्यवस्थित समजू शकते. मात्र याचा वापर हा कमी आणि तुलनेने सोप्या आज्ञा असणाऱ्या प्रकारातच केला जातो.

लार्ज व्होकॅब्युलरी/ मर्यादित वापरकर्ते

औद्योगिक क्षेत्रात, कॉर्पोरेटमध्ये या यंत्रणांचा वापर मोठय़ा प्रमाणात होतो. तसेच वापरकर्त्यांची संख्या कमी असेल तर ही यंत्रणा अधिक उत्तमरीत्या काम करू शकते. या यंत्रणेत लाखोंच्या संख्येने शब्द आधीच सेव्ह केलेले असतात.

पण मुळात या तंत्रज्ञानामागचं खरं लॉजिक किंवा कार्यपद्धती आहे ती स्पीच टू डेटा कन्व्हर्जनमध्ये. बोललेल्या वाक्यांचं टेक्स्टमध्ये किंवा कम्प्युटरच्या आज्ञेमध्ये परिवर्तन होत असताना अनेक घडामोडी असतात. आणि हे परिवर्तन होताना अनेक गुंतागुंतीच्या प्रक्रिया होत असतात. आपण जेव्हा बोलतो तेव्हा आपण हवेत कंपनं निर्माण करतो. ही कंपनं मग अ‍ॅनालॉग टू डिजिटल कन्व्हर्टरच्या (एडीसी) माध्यमातून डिजिटल डेटामध्ये परिवर्तित केली जातात. म्हणजेच कम्प्युटरला समजेल अशा भाषेत त्यांचं परिवर्तन केलं जातं. निर्माण झालेल्या ध्वनिलहरींचा वेध घेत त्या लहरीचं मोजमाप घेतलं जातं. या कन्व्हर्टरमधल्या सिस्टीम्स डिजिटाइज्ड ध्वनीला फिल्टर करून त्यातील नको असलेला ध्वनी काढून टाकतो. आणि त्यानंतर फ्रिक्वेन्सीच्या बँडनुसार त्याची विभागणी केली जाते. याशिवाय हा कन्व्हर्टर आणखी एक काम करतो. प्रत्येक माणसाचा आवाज हा एकसारखा नसतो. आणि माणसाच्या आवाजाचा वेगही एकसारखा नसतो. सिस्टीमच्या मेमरीमध्ये काही साउंड सॅम्पल्स स्टोअर केलेली असतात. त्या सॅम्पल्सशी माणसाचा आवाज जुळतोय की नाही हे तपासलं जातं.

त्यानंतर एकमेकांशी चटकन जुळणाऱ्या अशा अक्षरांचा, शब्दांचा वेध घेतला जातो आणि त्यावर आधारित छोटी छोटी सेगमेंट्स केली जातात. ही सेगमेट्स प्रोग्रामकडून फोनिम्सशी जुळवली जातात. फोनिम म्हणजे ध्वनिलेखन. कुठल्याही भाषेचा सर्वात छोटा घटक म्हणजे ध्वनिलेखन किंवा फोनिम. इंग्रजी भाषेत ४० फोनिम्स असल्याचं सांगितलं जातं. थोडक्यात म्हणजे उच्चारावरून एकसारखे वाटणारे शब्द म्हणजे फोनिम्स असा त्याचा ढोबळ अर्थ आहे. तर या फोनिम्सवरून नेमकी आज्ञा काय आहे ती तपासली जाते. सिस्टीममध्ये सेव्ह केलेल्या त्या फोनिम्स जुळल्या की मग ती आज्ञा प्रोग्रामकडून समजली जाते. आणि त्यानुसार मग तो प्रक्रिया सुरू करतो. हे सगळं ध्वनिलहरींचं डिजिटायझेशन झाल्यानंतर होतं. डिजिटायझेशन म्हणजे लहरींना ० आणि १ च्या भाषेत आणणं.

आत्ताच्या घडीला गाडय़ा, मोबाइल फोन्स, लॅपटॉप्स, टीव्ही अशा अनेक ठिकाणी या यंत्रणेचा वापर केला जातो. गुगल स्पीच रिकग्निशन, अ‍ॅपल सिरीसारख्या तंत्रज्ञानाने तर बोटांचा वापरच कमी केला आहे. आयर्न मॅनमधल्या जाव्‍‌र्हिससारखं केवळ व्हॉइस कमांडवर चालणाऱ्या यंत्राकडे आपला प्रवास सुरू आहे.

pushkar.samant@gmail.com