संहिता जोशी

‘वापर पाहून शिफारस- शिफारशीतून आणखी वापर किंवा वापर नाही- मग पुन्हा वापर पाहून शिफारस’ हे असं चक्र चालू राहिल्यास वापरकर्त्यांला स्वत:च्या आवडीनिवडी जितक्या माहीत नसतील, तितक्या त्या शिफारसवाल्यांना माहीत होऊ लागतात!

वेगवेगळ्या प्रकारच्या शिफारशी करणं हा मशीन लर्निगचा एक उपयोग आहे. भाकितं करणं निराळं आणि शिफारस निराळी. आपल्याला आलेलं ईमेल किंवा फोन कॉल स्पॅम आहे का, मेंदू किंवा त्वचेचे स्कॅन्स बघून त्यात कर्करोग दिसत आहे का, याची भाकितं केली जातात. ती जर बहुतेक वेळा योग्य ठरली तर त्यांचा व्यावसायिक उपयोग केला जातो. दुसऱ्या प्रकारच्या भाकितांना शिफारशी म्हणता येईल.

नेटफ्लिक्स या कंपनीनं आता भारतातही व्यवसाय सुरू केला आहे. लोकांना आवडतील असे चित्रपट, मालिका त्यांना सुचवणं हा त्यांच्या व्यवसायाचा मोठा हिस्सा आहे. अशा भाकितांना शिफारस म्हणता येईल. महागाचा मोबाइल फोन घेतल्यावर त्यासाठी कव्हर, स्क्रीन झाकणारं पारदर्शक कव्हर, हेडफोन अशा संबंधित वस्तूंच्या शिफारशी दुकानदारही करतात. मग नेटफ्लिक्सनं शिफारशी करण्यात काय निराळं आहे? कोणत्या सिनेमांची कोणाला शिफारस करायची हे ते कसं ठरवतात?

आपल्याला आवडलेले सिनेमे इतर कोणाकोणाला आवडले, त्यांना इतर कोणते सिनेमे आवडले यावरून सिनेमांची शिफारस केली जाते. तसंच सिनेमांच्या विषयानुरूप वर्गीकरण करण्यासाठीही आपली आवड-नावड सुचवणारी रेटिंग्ज वापरली जातात. एका व्यक्तीच्या मतांवरून अशी गणितं करता येणार नाहीत; पण नेटफ्लिक्सला आपली आवडनावड सांगणारे शब्दश: कोटय़वधी लोक आहेत.

समजा ‘एलियन’, ‘नॉटिंग हिल’ आणि ‘आँखों देखी’ हे सिनेमे मला आवडले, असं नेटफ्लिक्सला कळवलं, तर त्यावरून पुढे कोणते सिनेमे/ मालिका मी बघाव्यात हे नेटफ्लिक्स सुचवतं. त्यांच्या दृष्टीनं मी त्या सिनेमाला पाच तारे दिले आणि त्यांच्या भाकितानुसार मी त्या सिनेमाला ४.५ तारे देईन, असा गणिती फरक तिथे महत्त्वाचा नसतो. त्यांनी केलेली शिफारस मला पटली, एवढंच त्यात महत्त्वाचं असतं.

मला काय आवडतं हे नेटफ्लिक्सला सांगितलं, माझ्या आवडीनिवडी नेटफ्लिक्सला सांगितल्या तर त्या बदल्यात मला आवडणार नाहीत असे चित्रपट माझ्या डोळ्यांसमोर सतत येणार नाहीत. शिवाय, आपल्या ग्राहकांना काय प्रकारचे सिनेमे-मालिका आवडतात हे नेटफ्लिक्सला समजलं तर ते तशा प्रकारचे आणखी सिनेमे ग्राहकांना उपलब्ध करून देतील. दोन्ही बाजूंचा फायदाच झाला (शिफारशी करताना त्यात आणखी विदाही वापरली जाते, प्रेक्षक कुठे राहतात, आर्थिक गट, वय वगैरे त्यांच्याकडे उपलब्ध असलेली सगळी माहिती वापरली जाते.).

त्यांनी २००९ साली त्यांच्याकडची विदा (डेटा) जाहीर केली. जवळजवळ पाच लाख लोकांनी, १८००० सिनेमांना दिलेली एक अब्जापेक्षा जास्त रेटिंग्ज त्यांनी उपलब्ध करून दिली. तेव्हा त्यांच्या मशीन लर्निग अल्गोरिदमनं केलेल्या शिफारशी साधारण १० टक्के अचूक होत्या; म्हणजे ९० टक्के वेळा चुकत होत्या. उदाहरणार्थ, ‘आँखों देखी’ आवडल्याचं म्हटलं म्हणून त्यांनी ‘दिलवाले’ बघायला सुचवला तर ती शिफारस चुकलेली असण्याची शक्यताच जास्त. दोन्ही सिनेमे हिंदी भाषिक आहेत या पलीकडे दोन्हींमध्ये काहीही साधर्म्य नाही. ही विदा जाहीर करण्याचं कारण होतं त्यांची स्पर्धा. स्पर्धेचं स्वरूप होतं की, या शिफारशींची अचूकता आहे त्यापेक्षा दहा टक्क्यांनी, एका वर्षांत सुधारून दिल्यास दहा लाख अमेरिकी डॉलरांचं बक्षीस मिळेल.

आहे त्यात ‘१० टक्के सुधारणा’ म्हणजे, शिफारशींची अचूकता १० टक्केऐवजी ११ टक्के करणं. हा फरक अगदी बारका आहे, असं दिसताना दिसतं; पण नेटफ्लिक्सच्या दृष्टीनं दोन गोष्टी महत्त्वाच्या होत्या; एकूण एक टक्का फरकामुळे किती ग्राहक नेटफ्लिक्सवर जास्त वेळ घालवतात, त्यातून त्यांचा नफा किती वाढतो आणि दुसरं, यातून त्यांना चांगले विदावैज्ञानिक (डेटा सायंटिस्ट) सापडतात का? हुशार लोक शोधण्यासाठी यापेक्षा ‘सोपा’ उपाय शोधणं कठीण आहे!

स्पर्धेच्या पहिल्या वर्षांत कुणालाही १० टक्के सुधारणा दाखवता आली नाही; पण तीन वर्षांनंतर विदावैज्ञानिकांच्या एका समूहानं १० टक्क्यांपेक्षा जास्त सुधारणा करणारं उत्तर शोधलं. त्यानंतर काही तासांतच इतर दोन समूहसुद्धा थोडी निराळी, पण अचूकता वाढवणारी उत्तरं घेऊन आले. तीन वर्षांनंतर काही तासांतच ही उत्तरं चटचट सापडण्याचं कारणही सोपं होतं; सुरुवातीला जे तीन गट होते, त्यांतले काही लोक इतर गटांमध्ये जाऊन काम करत होते.

नेटफ्लिक्सनं बक्षिसाची रक्कम सुरुवातीला उत्तर जाहीर करणाऱ्या गटाला दिली. एवढं करूनही त्यांनी तो उपाय वापरला नाही. त्यांनी जे गणित वापरलं होतं, ते संपूर्ण नेटफ्लिक्सच्या विदागारावर चालवायचं तर खूप वेळ लागला असता. नेटफ्लिक्स सुरू केल्यावर लगेचच आपल्याला शिफारशी दिसायला पाहिजेत किंवा एखादा सिनेमा बघून झाल्यावर आपण त्याचं रेटिंग देतो, त्यावरून लगेच शिफारशींची गणितं होऊन बदल दिसले पाहिजेत. एवढी गणितं करून, ‘आँखों देखी’ आवडल्याचं नेटफ्लिक्सला सांगितलं तरीही ‘दिलवाले’ची शिफारस दाखवली तर अर्थातच ग्राहक वैतागणार!

म्हटलं तर एक पर्याय असतोच, शिफारशींकडे दुर्लक्ष करायचं. पण एकदा असा पर्याय मिळाल्यावर ग्राहकांना जुन्या जमान्यात जायचं नसतं, जिथे कदाचित अक्षरक्रमानुसार किंवा प्रदर्शन-वर्षांनुसार सिनेमे लावलेले असतील. आपल्या पारंपरिक ग्रंथालयांमध्येही पुस्तकं लावलेली असतात ती डय़ूई दशांश पद्धतीनुसार. त्यातही पुस्तकांचे विषय, त्या विषयांचा परस्परसंबंध यांनुसार ती पुस्तकं लावलेली असतात. दोन पुस्तकं फक्त एकाच भाषेतली आहेत किंवा एकाच लेखिकेची आहेत म्हणून शेजारी सापडतील असं नाही.

नेटफ्लिक्स इथे नावापुरतं; सिनेमे इंटरनेटवरून दाखवण्याचा व्यवसाय नेटफ्लिक्सनं सुरुवातीला नफ्यात चालवून दाखवला. शिफारशींचं गणित करताना विदावैज्ञानिकांच्या लक्षात आलं की प्रेक्षक जी रेटिंग्ज सिनेमांना देतात त्यापेक्षा लोक किती वेळ तो सिनेमा बघतात ही विदा महत्त्वाची आहे. आपल्याला नक्की कोणता सिनेमा, किती आवडतो, याबद्दल आपले अंदाज आणि आपली खरी आवड यांत थोडी विसंगती असते. आपल्याला शिफारस केलेल्या सिनेमे/ मालिकांपैकी आपण कोणत्या गोष्टी पाहतो, किती वेळ पाहतो, यातून आपल्याला आपल्या भावना समजल्या नाहीत तरी विदावैज्ञानिकांना समजू शकतात.

सिनेमा किती वेळ बघितला, हे मोजणं अगदी सोपं आहे; त्यासाठी नवे सेन्सर बनवण्याची गरज नाही. सिनेमाघरांमधून उठून जाणारे प्रेक्षक बघूनही ही गोष्ट समजली असती; पण आता घरबसल्या सिनेमे बघता येतात आणि लोकांना काय बघायला आवडतं, तेही सॉफ्टवेअर, अल्गोरिदम वापरून समजतं.

आपल्याला नक्की काय वाटतं, हे आपल्याला समजण्यापूर्वीही विदावैज्ञानिक समजून घेऊ शकतात.

नेटफ्लिक्सनं लोकांची विदा जेव्हा स्पर्धेसाठी जाहीर केली, तेव्हा त्यावर टीकाही झाली होती. ऑस्टिन विद्यापीठातल्या काही संशोधकांनी आयएमडीबी (इंटरनेट मूव्ही डेटा-बेस) हे दुसरं विदागार वापरलं. त्यात कोणत्या लोकांनी कोणत्या सिनेमांचं काय परीक्षण लिहिलं होतं, ही विदा गोळा केली. हे दोन्ही विदासंच एकत्र करण्याचं कठीण काम, त्यांना करता आलं आणि लोकांच्या खासगीपणावर त्यातून गदा आली. एरवी कुणाला ‘आँखों देखी’ आवडला, यामुळे काही नुकसान होत नाही. मात्र अनेक समलैंगिकांचा लैंगिक कल त्यातून जाहीर होत होता; आयएमडीबीवर त्यांनी आपला खासगीपणा जपला होता तरीही नेटफ्लिक्सची विदा एकत्र केल्यावर त्यांची खासगी आयुष्यं चव्हाटय़ावर आली.

संशोधनासाठी नेटफ्लिक्सनं कोणाची विदा जाहीर करावी, यात वापरकर्त्यांच्या परवानगीचं काय, यावरून नेटफ्लिक्सवर चार ग्राहकांनी खटला भरला. त्यांनी न्यायालयाबाहेर तडजोड करून तो सोडवला.

लेखिका खगोलशास्त्रात पीएच.डी. आणि पोस्ट-डॉक असल्या, तरी सध्या विदावैज्ञानिक म्हणून कार्यरत आहेत.

ईमेल : 314aditi@gmail.com