संगणकावर अथवा मोबाइलवर मजकूर टंकलेखित करीत असताना शुद्धलेखनाच्या चुका आपोआप दुरुस्त केल्या जातात. व्याकरणाच्या चुका अधोरेखित केल्या जातात. एक शब्द लिहिला की पुढचा संभाव्य शब्द आपोआप पटलावर दृश्यमान होतो. या अनुभवातून जाताना असे वाटते की जणू ही यंत्रे आपल्याहूनही अधिक भाषातज्ज्ञ आहेत. पण हे खरोखर सत्य आहे का? या प्रश्नाचे उत्तर अर्थातच नाही असे आहे. नैसर्गिक भाषा प्रक्रियेची तंत्रे वापरून यंत्रांनी भाषा शिक्षणात आजवर खूप प्रगती केली असली तरी अजूनही भाषेची अनेक अंगे समजून घेणे यंत्रांना जमलेले नाही. यंत्राच्या भाषा शिक्षणाचा मार्ग इतका खडतर का आहे हे थोडक्यात पाहूया.

मुळात नैसर्गिक भाषा या नियमांच्या चौकटीत बंदिस्त आणि अविचल नसतात. भाषेला व्याकरणाच्या नियमांची एक चौकट असली तरी व्याकरणाच्या नियमांना अनेकदा अपवाद असतात. कोसाकोसावर बोलीभाषा बदलतात. काळानुसार काही शब्द भाषेतून वजा होतात वा नवे शब्द भाषेत सामील होतात. संदर्भानुसार अर्थ बदलतो. उपरोध, उपमा, उत्प्रेक्षा, प्रतीके, रूपके हे अर्थालंकार भाषेला समृद्ध करत असले तरी त्यामुळे भाषा समजण्यास जटिल होते व यंत्रांना ती समजणे अधिकाधिक कठीण होत जाते.

Loksatta anyatha spain Segovia Toledo is a beautiful hilltop village
अन्यथा: सुशांत आणि समजूतदार
समरार्थ फिक्शन...
समरार्थ फिक्शन…
expert answer on career advice questions career advice tips from expert
करीअर मंत्र
Facial Exercise For Glowing Skin Yoga for anti-ageing
कमी वयातच चेहऱ्यावर सुरकुत्या? फक्त ‘हे’ दोन योगा करा; नेहमीच दिसाल तरुण
Exam Studying at Night can all nighters really help you ace your exams doctor shares why you should not skip sleeping the night before
परीक्षेसाठी रात्रभर जागून अभ्यास करणे ही खरोखरचं फायदेशीर पद्धत आहे का? डॉक्टरांनी दिलेले ‘हे’ उत्तर वाचाच
tumor, woman, stomach, doctors,
महिलेच्या पोटातून काढली पावणेपाच किलोची गाठ, कामा रुग्णालयातील डॉक्टरांनी शस्त्रक्रिया करून दिले जीवदान
crime , money, justice, Abolition,
पैशाच्या बदल्यात गुन्हा रद्द करणे म्हणजे न्याय विक्रीला काढल्यासारखे…
Loksatta kutuhal Artificial Intelligence for Anomaly Detection in Financial Transactions
कुतूहल: वित्तव्यवहारांत विसंगती शोधक कृत्रिम बुद्धिमत्ता

भाषेतील संदिग्धता हा यंत्र शिक्षणात फार मोठा अडसर ठरतो. मराठी भाषेतील उदाहरण द्यायचे झाले तर ‘‘नमस्कार कर.’’ ‘‘कर हा करी धरीला.’’, ‘‘ उत्पन्नावर कर भरावा लागतो.’’ या तीनही वाक्यांत कर हा शब्द वेगळ्या अर्थांनी आला आहे. असे बहुअर्थी शब्द नैसर्गिक भाषा प्रक्रियेला अडथळे निर्माण करतात.

भाषेचे असंख्य पैलू आणि बदलती रूपे समजण्यासाठी यंत्रांना प्रचंड प्रमाणात विदा (डेटा) पुरवावा लागतो. या विदाच्या आधारेच भाषा प्रक्रियेची प्रारूपे स्वयंशिक्षित होतात. कधीकधी हा विदा अपुरा, एकांगी, कलुषित, विस्कळीत असू शकतो आणि अशा विदावरून शिक्षण घेणारी प्रारूपे चुकीचे निष्कर्ष कढतात. विदा मिळवताना गोपनीयतेचे व नैतिकतेचे नियम पाळणेसुद्धा गरजेचे असते.

ही प्रारूपे स्वतंत्रपणे काम करत नाहीत तर त्यासाठी लागणारा प्रचंड मोठा विदा साठवण्याची व अपेक्षित वेगाने विश्लेषण करण्याची क्षमता यंत्रात असावी लागते जे अर्थातच खर्चीक असते. अशा अडचणींमुळे प्रमाणिकृत आणि नि:संदिग्ध असा भाषेचा भाग समजून घेणे यंत्रांनी साध्य केले असले तरी त्यांचे भाषाशिक्षण पूर्णत्वास पोहोचण्याचा पल्ला अद्याप दूरच आहे.

प्रा.माणिक टेंबे, मराठी विज्ञान परिषद