यंत्रे मानवी भाषा कशी समजून घेतात याबद्दल म्हणजेच कृत्रिम बुद्धिमत्तेच्या क्षेत्रात ज्याला नैसर्गिक भाषा प्रक्रिया म्हणतात त्या प्रक्रियेत नक्की काय घडते याचे आपल्याला कुतूहल असते. ही प्रक्रिया या छोट्या लेखात समग्र समजून घेणे जरी अशक्य असले तरी त्याची एक रूपरेषा आपण पाहूया.

यंत्राला पुरवलेला मजकूर हा यंत्रासाठी फक्त एक चिन्हांची आगगाडी असते. त्यातून अर्थ शोधण्याकरिता त्यावर काही प्रक्रिया कराव्या लागतात. त्यातली पहिली पायरी म्हणजे मजकुरातील वाक्ये व वाक्यातील शब्द वेगळे करणे (सेगमेंटेशन). उदाहरणार्थ, ‘‘राम आंबा खातो’’ या वाक्यातील शब्द वेगळे करून त्यांचा (राम, आंबा, खातो) असा सदिश (व्हेक्टर) बनवला जातो. सदिशातील सर्व घटकांना अंकीय किंमत दिली की यंत्रांना समजेल व प्रक्रिया करता येईल असा अंकीय घटकांचा सदिश मिळतो. पूर्णविराम वापरून वाक्ये आणि रिकामी जागा वापरून शब्द वेगळे करता येतात.

Kutuhal Artificial intelligence and surgery
कुतूहल: कृत्रिम बुद्धिमत्ता आणि शस्त्रक्रिया
panvel municipal corporation
पनवेल महापालिकेचे समाजमाध्यमाद्वारे नियुक्तीचे खोटे पत्र, पालिका प्रशासन फौजदारी प्रक्रिया करणार
article about mpsc exam preparation guidance mpsc exam preparation tips in marathi zws
MPSC मंत्र : अराजपत्रित सेवा संयुक्त पूर्व परीक्षा – चालू घडामोडी
Loksatta kutuhal Artificial Intelligence in Cyber crime
कुतूहल: सायबर गुन्ह्यांतील कृत्रिम बुद्धिमत्ता
loksatta kutuhal cyber crime and artificial intelligence
कुतूहल : सायबर गुन्हे आणि कृत्रिम बुद्धिमत्ता…
Challenges and Problems with GST
 लेख : ‘जीएसटी’चा जाच असा टाळता येईल…
xenotransplantation
डुकराची किडनी प्रत्यारोपित केलेल्या पहिल्या व्यक्तीचा मृत्यू; विज्ञानाचा चमत्कार मानले जाणारे झेनोट्रांसप्लांटेशन आहे तरी काय?
Amandeep Singh, the fourth Indian to be arrested in Hardeep Singh Nijjar murder case
अन्वयार्थ : निज्जर हत्याप्रकरणी नि:संदिग्ध भूमिका हवी…

यानंतर शब्दांमधील विभक्ती प्रत्ययांची छाटणी करून शब्दांचे संक्षिप्त रूप मिळवतात. यासाठी स्टेमिंग अथवा लॅमेटायझेशन अशा दोन पद्धती वापरतात. त्यातही गंमत आहे. उदाहरणार्थ, ‘‘पत्राचे उत्तर‘‘ यातील पत्राचे शब्दावर स्टेमिंग प्रक्रिया केल्यास ‘पत्रा’ शब्द उरेल. त्याऐवजी लॅमेटायझेशन प्रक्रिया केल्यास ‘पत्र’ ही मूळ संज्ञा मिळेल.

हेही वाचा >>> कुतूहल : भाषापटू यंत्रांची करामत

यानंतर पार्सिंग प्रक्रियेत प्रत्येक शब्दाला कर्ता, कर्म, क्रियापद, नाम, विशेषनाम अशा घटकांत विभागले जाते व प्रत्येक शब्द संबंधित व्याकरण घटकाच्या संबोधपट्टीशी (टोकन) जोडला जातो.

यानंतरची पायरी म्हणजे अर्थसंदिग्धता दूर करणे. उदाहरणार्थ, ‘‘शरद चितळेनी चितळे बंधूंकडून श्रीखंड मागवले.’’ यात चितळेचा पहिला उल्लेख हा व्यक्तीचे नाम आहे, तर दुसरा दुकानाचे नाव आहे. या दोन्ही शब्दांना योग्य ती संबोधपट्टी जोडून ही संदिग्धता दूर करता येते.

मजकुरावर अशाप्रकारचे विश्लेषणपूर्व संस्करण झाल्यानंतर नैसर्गिक भाषा प्रक्रियेचे विशिष्ट प्रारूप त्या संस्कारित विदावर (डेटा) प्रक्रिया सुरू करते. ही प्रारूपे मुख्यत: तीन प्रकारची असतात. नियमांवर आधारित प्रारूप, संख्याशास्त्र व यंत्रांचे स्वयंशिक्षण (मशीन लर्निंग) वापरणारे प्रारूप अथवा न्यूरल नेटवर्क वापरणारे प्रारूप. पहिल्या प्रारूपात आपल्यालाच भाषा प्रक्रियेचे व व्याकरणाचे नियम प्रारूपाला पुरवावे लागतात, तर इतर दोन्ही प्रारूपे दिलेल्या भाषेच्या नमुन्यांवरून स्वत: नियम शोधून मजकुराचे अर्थ निर्णयन करतात. अशा प्रकारे यंत्रांना भाषेचे आकलन होते.

प्रा. माणिक टेंबे

मराठी विज्ञान परिषद

ईमेल : office@mavipa.org

सकेंतस्थळ : http://www.mavipa.org