आज प्रत्येकाच्या हातात स्मार्टफोन आहे. त्यावर उपलब्ध असलेली इंटरनेटची किंमतही सर्वसामान्यांना परवडत आहे. त्यामुळे फेसबुक, इन्स्टाग्राम, यूटय़ूबसारख्या समाजमाध्यमांवर रोज मोठय़ा प्रमाणात लिखित मजकूर, चित्र, चलचित्र अशा रूपात डेटा टाकला जात आहे. २०१५ नंतर तर हे प्रमाण प्रचंड वेगाने वाढत आहे.

परंतु या डेटाला ‘कच्चा डेटा’ असे म्हटले जाते. यंत्राला शिक्षण देण्यासाठी यावर काम करून त्याचे उपयुक्त विदेत रूपांतर करणे आवश्यक असते. गेल्या काही वर्षांत मायक्रोसॉफ्ट, गूगल, फेसबुक, यूटय़ूबसारख्या कंपन्यांनी या कच्च्या डेटावर काम करून त्याचे उपयुक्त विदेत रूपांतरच केले नाही, तर ती विदा ‘पब्लिक डेटासेट’च्या माध्यमातून सखोल शिक्षणाच्या अभ्यासकांसाठी मोफत उपलब्धही करून दिली. यामुळे सखोल शिक्षणाच्या क्षेत्रात काम करणाऱ्या संशोधकांची मोठी गरज भागली. तीन लाखांहून अधिक प्रतिमा असलेला ‘मायक्रोसॉफ्ट कोको’, चलचित्रांसाठी ६१ लाख यूटय़ूब व्हिडीओज असलेला ‘यूटय़ूब एट मिलियन’, लिखित मजकुरासाठी ‘विकिपीडिया’तून घेतलेली दीड लाख प्रश्नोत्तरे असलेला ‘स्क्वाड’ आणि ध्वनिफितींसाठी २० लाख ध्वनिफिती असलेला ‘गूगल ऑडिओसेट’ ही या ‘पब्लिक डेटासेट’ची काही उदाहरणे. 

मराठीतील सर्व नवनीत बातम्या वाचा. मराठी ताज्या बातम्या (Latest Marathi News) वाचण्यासाठी डाउनलोड करा लोकसत्ताचं Marathi News App.
Web Title: Loksatta kutuhal deep learning internet data amy
First published on: 10-04-2024 at 00:10 IST