आपण अलेक्साला एखादा आदेश देतो आणि ती पटकन काम करून टाकते, ही गोष्ट अगदी सहजसोपी वाटली तरी संभाषण आकलनाचे तंत्रज्ञान मोठे अवघड आणि गुंतागुंतीचे आहे.

संभाषण आकलनाची मूलभूत प्रक्रिया अशी : आपण बोललेले शब्द मायक्रोफोनमधून संभाषण आकलन यंत्रणेकडे जातात. त्यातील गोंगाट गाळून टाकून मग त्यांचे रूपांतर अंकीय (डिजिटल) स्वरूपात केले जाते. या अंकीय स्वरूपातील शब्दांची किंवा वाक्यांची फोड करून त्यातून एकेक मूळ अक्षर म्हणजे फोनीम वेगळा केला जातो. प्रत्येक फोनीमची मग विदासाठय़ामध्ये (डेटाबेस) साठवलेल्या फोनीमशी तुलना करून सर्वात उत्तम जुळणारा म्हणजे बेस्ट मॅच फोनीम निवडला जातो. त्यानंतर या सर्व फोनीमची संदर्भानुसार अर्थपूर्ण शब्द किंवा वाक्य बनेल अशी तर्कशुद्ध मांडणी

How to pick the best AC types cooling capacities BEE star ratings and more you know while purchasing AC
थंडगार हवा अन् वीज बचत दोन्ही हवंय? मग AC खरेदी करताना ‘या’ गोष्टींकडे द्या लक्ष; पैशांची होणार मोठी बचत
All information about OpenAI GPT 4 Vision in marathi
प्रतिमा, मजकूर आणि ध्वनी अशा तिन्ही गोष्टींवर करणार प्रक्रिया; GPT- 4 Vision नक्की काय आहे?
deep learning definition
कुतूहल : डीप लर्निग – सखोल शिक्षण म्हणजे काय?
toll plaza
विश्लेषण : भविष्यात टोलनाके बंद होणार? कशी असेल GPS आधारित नवी यंत्रणा?

केली जाते. ही मांडणी मग आवश्यकतेनुसार लिखित स्वरूपात म्हणजे टेक्स्ट म्हणून दिली जाते किंवा ती आज्ञा असेल तर त्यानुसार कार्यवाही केली जाते.

ही प्रक्रिया समजायला सोपी परंतु प्रत्यक्षात अमलात आणायला अनेक कारणांमुळे खूप कठीण जाते. एक म्हणजे जगात बोलल्या जाणाऱ्या असंख्य भाषा- एका अंदाजानुसार आज जगात सुमारे नऊ हजार भाषा बोलल्या जातात आणि त्यांची संख्या वाढतच आहे, कारण जसजशी सर्वेक्षणाची व्याप्ती वाढते त्यानुसार नवीन माहिती उपलब्ध होते. या प्रत्येक भाषेसाठी वेगळे सॉफ्टवेअर बनवणे ही जवळजवळ अशक्यप्राय गोष्ट आहे. यात दिलासा म्हणजे जगातील जवळजवळ अर्धी लोकसंख्या फक्त २३ भाषांमध्ये विभागता येते. दुसरे असे की भाषा जरी कमी झाल्या तरी त्यांच्या उच्चारणात खूप फरक पडतो.

इंग्रजीचेच उदाहरण घेऊ या. भारतीय इंग्रजी (उत्तर आणि दक्षिण भारतीय), ब्रिटिश इंग्रजी, अमेरिकन इंग्रजी यांचे शब्द समान असले तरी उच्चारण खूप वेगळे असते. पुढचे कारण समध्वनी, म्हणजे एकच उच्चार पण अर्थ मात्र वेगवेगळे. प्रत्येक भाषेत असे शब्द असतात. मराठीतले उदाहरण म्हणजे ‘पात्र’. याचे किती तरी अर्थ आहेत जे संदर्भानुसार बदलतात. आणखी एक उदाहरण, इंग्रजीतले घेऊ. ‘टिम कुक’ हे नाव समजायचे की स्वयंपाक करण्यासाठी टिमला दिलेली आज्ञा? यामुळेच संभाषण आकलनाचे सॉफ्टवेअर तयार करणे हे अत्यंत जटिल काम ठरते.

शशिकांत धारणे ,मराठी विज्ञान परिषद