आपण अलेक्साला एखादा आदेश देतो आणि ती पटकन काम करून टाकते, ही गोष्ट अगदी सहजसोपी वाटली तरी संभाषण आकलनाचे तंत्रज्ञान मोठे अवघड आणि गुंतागुंतीचे आहे. संभाषण आकलनाची मूलभूत प्रक्रिया अशी : आपण बोललेले शब्द मायक्रोफोनमधून संभाषण आकलन यंत्रणेकडे जातात. त्यातील गोंगाट गाळून टाकून मग त्यांचे रूपांतर अंकीय (डिजिटल) स्वरूपात केले जाते. या अंकीय स्वरूपातील शब्दांची किंवा वाक्यांची फोड करून त्यातून एकेक मूळ अक्षर म्हणजे फोनीम वेगळा केला जातो. प्रत्येक फोनीमची मग विदासाठय़ामध्ये (डेटाबेस) साठवलेल्या फोनीमशी तुलना करून सर्वात उत्तम जुळणारा म्हणजे बेस्ट मॅच फोनीम निवडला जातो. त्यानंतर या सर्व फोनीमची संदर्भानुसार अर्थपूर्ण शब्द किंवा वाक्य बनेल अशी तर्कशुद्ध मांडणी केली जाते. ही मांडणी मग आवश्यकतेनुसार लिखित स्वरूपात म्हणजे टेक्स्ट म्हणून दिली जाते किंवा ती आज्ञा असेल तर त्यानुसार कार्यवाही केली जाते. ही प्रक्रिया समजायला सोपी परंतु प्रत्यक्षात अमलात आणायला अनेक कारणांमुळे खूप कठीण जाते. एक म्हणजे जगात बोलल्या जाणाऱ्या असंख्य भाषा- एका अंदाजानुसार आज जगात सुमारे नऊ हजार भाषा बोलल्या जातात आणि त्यांची संख्या वाढतच आहे, कारण जसजशी सर्वेक्षणाची व्याप्ती वाढते त्यानुसार नवीन माहिती उपलब्ध होते. या प्रत्येक भाषेसाठी वेगळे सॉफ्टवेअर बनवणे ही जवळजवळ अशक्यप्राय गोष्ट आहे. यात दिलासा म्हणजे जगातील जवळजवळ अर्धी लोकसंख्या फक्त २३ भाषांमध्ये विभागता येते. दुसरे असे की भाषा जरी कमी झाल्या तरी त्यांच्या उच्चारणात खूप फरक पडतो. इंग्रजीचेच उदाहरण घेऊ या. भारतीय इंग्रजी (उत्तर आणि दक्षिण भारतीय), ब्रिटिश इंग्रजी, अमेरिकन इंग्रजी यांचे शब्द समान असले तरी उच्चारण खूप वेगळे असते. पुढचे कारण समध्वनी, म्हणजे एकच उच्चार पण अर्थ मात्र वेगवेगळे. प्रत्येक भाषेत असे शब्द असतात. मराठीतले उदाहरण म्हणजे ‘पात्र’. याचे किती तरी अर्थ आहेत जे संदर्भानुसार बदलतात. आणखी एक उदाहरण, इंग्रजीतले घेऊ. ‘टिम कुक’ हे नाव समजायचे की स्वयंपाक करण्यासाठी टिमला दिलेली आज्ञा? यामुळेच संभाषण आकलनाचे सॉफ्टवेअर तयार करणे हे अत्यंत जटिल काम ठरते. शशिकांत धारणे ,मराठी विज्ञान परिषद