यंत्रे मानवी भाषा कशी समजून घेतात याबद्दल म्हणजेच कृत्रिम बुद्धिमत्तेच्या क्षेत्रात ज्याला नैसर्गिक भाषा प्रक्रिया म्हणतात त्या प्रक्रियेत नक्की काय घडते याचे आपल्याला कुतूहल असते. ही प्रक्रिया या छोट्या लेखात समग्र समजून घेणे जरी अशक्य असले तरी त्याची एक रूपरेषा आपण पाहूया.

यंत्राला पुरवलेला मजकूर हा यंत्रासाठी फक्त एक चिन्हांची आगगाडी असते. त्यातून अर्थ शोधण्याकरिता त्यावर काही प्रक्रिया कराव्या लागतात. त्यातली पहिली पायरी म्हणजे मजकुरातील वाक्ये व वाक्यातील शब्द वेगळे करणे (सेगमेंटेशन). उदाहरणार्थ, ‘‘राम आंबा खातो’’ या वाक्यातील शब्द वेगळे करून त्यांचा (राम, आंबा, खातो) असा सदिश (व्हेक्टर) बनवला जातो. सदिशातील सर्व घटकांना अंकीय किंमत दिली की यंत्रांना समजेल व प्रक्रिया करता येईल असा अंकीय घटकांचा सदिश मिळतो. पूर्णविराम वापरून वाक्ये आणि रिकामी जागा वापरून शब्द वेगळे करता येतात.

Akshay Kumar And Shreyas Talpade
“पहिल्या दिवसापासून त्याने मला…”, श्रेयस तळपदेने सांगितला अक्षय कुमारबरोबर काम करण्याचा किस्सा; म्हणाला…
Who is Madhurima Raje?
Madhurima Raje : सतेज पाटील ज्यांच्यामुळे ढसाढसा रडले…
two friends chickens joke
हास्यतरंग :  खांद्यावर…
amol mitkari jitendra awhad
“मुंब्र्यात जाऊन जितेंद्र आव्हाडांना…”, मिटकरींचं आव्हान; अजित पवारांवरील टीकेनंतर संताप व्यक्त करत म्हणाले…
maharashtra assembly election
“लोकसभेला साहेबांना खूश केलं, आता विधानसभेला मला खूश करा”; अजित पवारांचं बारामतीकरांना आवाहन!
Make delicious kheer
दिवाळीतील मिठाई कधी संपणार, असा प्रश्न पडलाय? मग झटपट बनवा मिठाईची स्वादिष्ट खीर
vidhan sabha election 2024
उमेदवारांच्या पारंपरिक प्रचारामुळे प्रिंटिंग व्यवसाय तेजीत
Kartik Aaryan
“एक वेळ अशी होती की…”, कार्तिक आर्यनने सांगितली संघर्षाच्या काळातील आठवण; म्हणाला…

यानंतर शब्दांमधील विभक्ती प्रत्ययांची छाटणी करून शब्दांचे संक्षिप्त रूप मिळवतात. यासाठी स्टेमिंग अथवा लॅमेटायझेशन अशा दोन पद्धती वापरतात. त्यातही गंमत आहे. उदाहरणार्थ, ‘‘पत्राचे उत्तर‘‘ यातील पत्राचे शब्दावर स्टेमिंग प्रक्रिया केल्यास ‘पत्रा’ शब्द उरेल. त्याऐवजी लॅमेटायझेशन प्रक्रिया केल्यास ‘पत्र’ ही मूळ संज्ञा मिळेल.

हेही वाचा >>> कुतूहल : भाषापटू यंत्रांची करामत

यानंतर पार्सिंग प्रक्रियेत प्रत्येक शब्दाला कर्ता, कर्म, क्रियापद, नाम, विशेषनाम अशा घटकांत विभागले जाते व प्रत्येक शब्द संबंधित व्याकरण घटकाच्या संबोधपट्टीशी (टोकन) जोडला जातो.

यानंतरची पायरी म्हणजे अर्थसंदिग्धता दूर करणे. उदाहरणार्थ, ‘‘शरद चितळेनी चितळे बंधूंकडून श्रीखंड मागवले.’’ यात चितळेचा पहिला उल्लेख हा व्यक्तीचे नाम आहे, तर दुसरा दुकानाचे नाव आहे. या दोन्ही शब्दांना योग्य ती संबोधपट्टी जोडून ही संदिग्धता दूर करता येते.

मजकुरावर अशाप्रकारचे विश्लेषणपूर्व संस्करण झाल्यानंतर नैसर्गिक भाषा प्रक्रियेचे विशिष्ट प्रारूप त्या संस्कारित विदावर (डेटा) प्रक्रिया सुरू करते. ही प्रारूपे मुख्यत: तीन प्रकारची असतात. नियमांवर आधारित प्रारूप, संख्याशास्त्र व यंत्रांचे स्वयंशिक्षण (मशीन लर्निंग) वापरणारे प्रारूप अथवा न्यूरल नेटवर्क वापरणारे प्रारूप. पहिल्या प्रारूपात आपल्यालाच भाषा प्रक्रियेचे व व्याकरणाचे नियम प्रारूपाला पुरवावे लागतात, तर इतर दोन्ही प्रारूपे दिलेल्या भाषेच्या नमुन्यांवरून स्वत: नियम शोधून मजकुराचे अर्थ निर्णयन करतात. अशा प्रकारे यंत्रांना भाषेचे आकलन होते.

प्रा. माणिक टेंबे

मराठी विज्ञान परिषद

ईमेल : office@mavipa.org

सकेंतस्थळ : http://www.mavipa.org