सायफाय सिनेमे किंवा जेम्स बाँडसारख्या स्पाय मूव्हीजमधली गॅजेट्स आणि त्यामागचं तंत्रज्ञान अद्भुतच. अदृश्य होणारी गाडी असो, पेनामधून सुटणारं मिसाइल असो, घडय़ाळाचं टाइमबॉम्बमध्ये होणारं रूपांतर असो की चष्म्यातून निघणारी लेझर किरणं असोत. जे न देखे रवि ते देखे कवी (त्यापेक्षा जे न करे शास्त्रज्ञ ते करे सिनेमातल तंत्रज्ञ म्हणणे योग्य) या उक्तीला अनुसरूनच हा सारा मामला तयार केलेला असतो. अर्थात यापैकी बऱ्याचशा गोष्टी (मिसाइल वगैरे नाही) पुढे जाऊन थोडय़ाफार फरकाने वास्तवात येतातच. या अशाच अद्भुत कविकल्पनांपैकी एक म्हणजे ‘फेस रिकग्निशन’.

काही वर्षांपूर्वीपर्यंत केवळ सिनेमा आणि काल्पनिक कथांमध्येच दिसणारं हे प्रकरण पुढे जाऊन वास्तवातही आलं. अर्थात अजूनही हे तंत्रज्ञान प्रचलित झालेलं नसलं तरी अनेक ठिकाणी प्रायोगिक तत्त्वावर त्याचा वापर सुरू करण्यात आला आहे. काही ठिकाणी अपेक्षित उपयुक्ततेच्या अभावामुळे बंदही करण्यात आला. काही वर्षांपूर्वी बोस्टनच्या लोगन एअरपोर्टवर सिक्युरिटी चेकपॉइंटवर फेस रिकग्निश सिस्टम बसवण्यात आली होती. पण तीनच महिन्यात ती निकालात निघाली. इलेक्ट्रॉनिक प्रायव्हसी इन्फॉर्मेशन सेंटरच्या म्हणण्यानुसार या सिस्टमचा अ‍ॅक्युरसी रेट (अचूकतेचं प्रमाण) हा फक्त ६२ टक्के होता. त्यामुळेच मग ही यंत्रणा काढून टाकण्यात आली. प्रयोग अयशस्वी झाला हा मुद्दा नाही. मुद्दा हा आहे त्यामागे जे तंत्रज्ञान वापरण्यात आलं ते कसं काम करतं आणि त्यात करता येण्याजोग्या सुधारणा.

मानवी चेहऱ्यामध्ये अनेक प्रकारच्या खुणा असतात. एखादा भूभाग जसा टेकडय़ा, खाचखळग्यांनी व्यापलेला असतो तसाच काहीसा प्रकार मानवी चेहऱ्याबाबत असतो. नाक, कपाळासारखे भाग म्हणजे टेकडय़ा आणि डोळ्याच्या खोबण्या म्हणजे खाचखळगे. तर सांगायचा मुद्दा हा की या सगळ्या भूभागाचा मिळून चेहरा बनतो आणि प्रत्येकाचा चेहरा म्हणजे भिन्न प्रकारचा भूभाग. (जुळ्यांचा अपवाद असू शकतो किंवा नसूही शकतो.) नोडल पॉइंट्स नावाची एक संकल्पना आहे. पृथ्वीला जसे अक्षांश-रेखांश आहेत तसाच काहीसा हा प्रकार आहे. सामान्यत: प्रत्येक चेहऱ्यावर ८० नोडल पॉइंट्स असतात असं मानलं जातं. फेसइट नावाचं एक सॉफ्टवेअर आहे. ते नोडल पॉइंट्सचा आधार घेऊन फेस रिकग्निशन करतं.

तर या ८० पैकी काही महत्त्वाचे नोडल पॉइंट्स घेऊन फेसइटसारखी सॉफ्टवेअर्स फेशियल रिकग्निशन करतात. उदाहरणार्थ- दोन डोळ्यांमधलं अंतर, नाकाची जाडी, डोळ्यांच्या खोबण्यांची खोली, गालाच्या हाडांचा आकार, जॉ-लाइनची लांबी वगैरे. ह्य नोडल पॉइंट्सच्या आधारे सांख्यिक कोड तयार केला जातो ज्याला फेसप्रिंट म्हणतात, तर हा असा फेसप्रिंट डेटाबेसमध्ये सेव्ह केला जातो. पूर्वीच्या काळी म्हणजे जेव्हा हे तंत्रज्ञान नवीन होतं तेव्हा हा सगळा प्रकार टूडी मध्ये म्हणजेच टू डायमेन्शनमध्ये होत असे. कॅप्चर झालेली इमेज आणि कॅमेरामध्ये दिसत असलेली इमेज एकसारख्या असल्या की फेस रिकग्निशन यशस्वी झालं. पण फोटोमध्ये दिसत असणारा चेहरा आणि कॅमेऱ्यात असलेला चेहरा यामध्ये थोडासा जरी फरक असला तरी सगळा मामला फिसकटायचा. अगदी दाढी जरी खुरटी वाढलेली असली तरी हे सगळं प्रकरण गडबडायचं. त्यामुळेच मग थ्रीडी फेशियल रिकग्निशन आलं.

थ्रीडीमध्ये अचूकता जरा वाढली. कारण यामध्ये चेहऱ्याचे फीचर्स टिपणं सुरू झालं. डोळ्यांमधलं अंतर, नाक, हनुवटीचं हाड वगैरे युनिक आणि कालानुरूप फारशा बदल न होणाऱ्या फीचर्सचा अंतर्भाव करण्यात आला. खोली आणि अ‍ॅक्सिसचा वापर यात होऊ  लागला. प्रकाशाचाही फारसा फरक पडत नसल्यामुळे अगदी अंधारातही फेशियल रिकग्निशन अचूकपणे चेहरा ओळखू लागलं. अर्थात थ्रीडी सॉफ्टवेअरमध्ये चेहऱ्याची ओळख पटवण्यासाठी वेगवेगळ्या पायऱ्या असतात.

इमेज (टूडी) किंवा व्हिडीओ इमेजच्या (थ्रीडी) माध्यमातून आधी डिटेक्शन होतं. डिजिटल स्कॅनिंगने ही इमेज कॅप्चर केली जाते. डिटेक्शननंतर डोक्याचा आकार, रुंदी, लांबी, खोली वगैरे इतर बाबी तपासल्या जातात. त्याचबरोबर चेहऱ्यावर विविध ठिकाणी असणारे कव्‍‌र्हज मोजले जातात. हे सगळं एका सांख्यिक कोडमध्ये रूपांतरित केलं जातं. जेव्हा तपासण्याची वेळ येते तेव्हा थ्रीडी किंवा टूडीनुसार विविध कोनांमधून चेहरा तपासला जातो. पुन्हा एकदा मापं काढली जातात. (तांत्रिक संदर्भात मापं काढली जातात बरं का) ही मापं डेटाबेसमधल्या सांख्यिक कोडशी जुळवली जातात. ती जुळली म्हणजे फेस रिकग्निशन अर्थात ओळख पटली समजायचं.

एक लक्षात असू द्या की हे सगळं आपण सांख्यिक कोडनुसार केलं. आणि त्याचा आधार हा इमेज किंवा व्हिडीओ इमेज हाच होता. याशिवाय स्किन बायोमेट्रिक हासुद्धा फेशियल रिकग्निशनचा महत्त्वाचा भाग आहे. सर्फेस टेक्स्चर अ‍ॅनॅलिसिस करून चेहऱ्याची ओळख पटवली जाते. हे नेमकं कसं चालतं ते आपण पुन्हा केव्हा तरी बघू या.

पुष्कर सामंत pushkar.samant@gmail.com