यंत्रे मानवी भाषा कशी समजून घेतात याबद्दल म्हणजेच कृत्रिम बुद्धिमत्तेच्या क्षेत्रात ज्याला नैसर्गिक भाषा प्रक्रिया म्हणतात त्या प्रक्रियेत नक्की काय घडते याचे आपल्याला कुतूहल असते. ही प्रक्रिया या छोट्या लेखात समग्र समजून घेणे जरी अशक्य असले तरी त्याची एक रूपरेषा आपण पाहूया.
यंत्राला पुरवलेला मजकूर हा यंत्रासाठी फक्त एक चिन्हांची आगगाडी असते. त्यातून अर्थ शोधण्याकरिता त्यावर काही प्रक्रिया कराव्या लागतात. त्यातली पहिली पायरी म्हणजे मजकुरातील वाक्ये व वाक्यातील शब्द वेगळे करणे (सेगमेंटेशन). उदाहरणार्थ, ‘‘राम आंबा खातो’’ या वाक्यातील शब्द वेगळे करून त्यांचा (राम, आंबा, खातो) असा सदिश (व्हेक्टर) बनवला जातो. सदिशातील सर्व घटकांना अंकीय किंमत दिली की यंत्रांना समजेल व प्रक्रिया करता येईल असा अंकीय घटकांचा सदिश मिळतो. पूर्णविराम वापरून वाक्ये आणि रिकामी जागा वापरून शब्द वेगळे करता येतात.
यानंतर शब्दांमधील विभक्ती प्रत्ययांची छाटणी करून शब्दांचे संक्षिप्त रूप मिळवतात. यासाठी स्टेमिंग अथवा लॅमेटायझेशन अशा दोन पद्धती वापरतात. त्यातही गंमत आहे. उदाहरणार्थ, ‘‘पत्राचे उत्तर‘‘ यातील पत्राचे शब्दावर स्टेमिंग प्रक्रिया केल्यास ‘पत्रा’ शब्द उरेल. त्याऐवजी लॅमेटायझेशन प्रक्रिया केल्यास ‘पत्र’ ही मूळ संज्ञा मिळेल.
हेही वाचा >>> कुतूहल : भाषापटू यंत्रांची करामत
यानंतर पार्सिंग प्रक्रियेत प्रत्येक शब्दाला कर्ता, कर्म, क्रियापद, नाम, विशेषनाम अशा घटकांत विभागले जाते व प्रत्येक शब्द संबंधित व्याकरण घटकाच्या संबोधपट्टीशी (टोकन) जोडला जातो.
यानंतरची पायरी म्हणजे अर्थसंदिग्धता दूर करणे. उदाहरणार्थ, ‘‘शरद चितळेनी चितळे बंधूंकडून श्रीखंड मागवले.’’ यात चितळेचा पहिला उल्लेख हा व्यक्तीचे नाम आहे, तर दुसरा दुकानाचे नाव आहे. या दोन्ही शब्दांना योग्य ती संबोधपट्टी जोडून ही संदिग्धता दूर करता येते.
मजकुरावर अशाप्रकारचे विश्लेषणपूर्व संस्करण झाल्यानंतर नैसर्गिक भाषा प्रक्रियेचे विशिष्ट प्रारूप त्या संस्कारित विदावर (डेटा) प्रक्रिया सुरू करते. ही प्रारूपे मुख्यत: तीन प्रकारची असतात. नियमांवर आधारित प्रारूप, संख्याशास्त्र व यंत्रांचे स्वयंशिक्षण (मशीन लर्निंग) वापरणारे प्रारूप अथवा न्यूरल नेटवर्क वापरणारे प्रारूप. पहिल्या प्रारूपात आपल्यालाच भाषा प्रक्रियेचे व व्याकरणाचे नियम प्रारूपाला पुरवावे लागतात, तर इतर दोन्ही प्रारूपे दिलेल्या भाषेच्या नमुन्यांवरून स्वत: नियम शोधून मजकुराचे अर्थ निर्णयन करतात. अशा प्रकारे यंत्रांना भाषेचे आकलन होते.
प्रा. माणिक टेंबे
मराठी विज्ञान परिषद
ईमेल : office@mavipa.org
सकेंतस्थळ : http://www.mavipa.org