छोड़कर सामग्री पर जाएँ
You are here : HomeExplanationData Science Kya Hai

Data Science क्या है? यह कैसे काम करता है?

Data-Science-Kya-Hai

आजकल आए दिन डाटा चोरी की खबरें सुनने को मिलती हैं। और रोज किसी न किसी कंपनी पर डाटा चोरी के आरोप लगते रहते हैं। ऐसे में मन में सवाल उठता है कि आखिर यह Data है क्या? और इसकी चोरी क्यों होती है? क्या यह इतना कीमती है कि इसकी चोरी करनी पड़े? तो इसके लिए आपका Data का पूरा खेल समझना पड़ेगा। साथ ही यह भी समझना पड़ेगा कि Data Science Kya Hai? और इसकी मदद से डाटा का किस तरह इस्तेमाल किया जाता है। तो आइए, विस्तार से जानते हैं कि डाटा साइंंस क्या है?

Data Science (डाटा साइंंस)

आपने अक्सर नोटिस किया होगा कि जब आप Youtube पर किसी चैनल को बार बार देखते हैं! तो उससे Related Videos आपको Automatically Recommend होने लगते हैं। इसी तरह जब आप Google पर कोई प्रोडक्ट Search करते हैं! तो आपको हर जगह उसी प्रोडक्ट के विज्ञापन दिखाई देने लगते हैं। अब सवाल यह है कि ऐसा कैसे संभव है? आखिर Google पर सर्च किए गए प्रोडक्ट के बारे में फेसबुक, इंस्टाग्राम और अमेजन को कैसे पता चला? तो यह असल में Data Science का कमाल है।

अवश्य पढ़ें: Artificial Intelligence (AI) क्या है? इसके क्या-क्या उपयोग है?

दरअसल Youtube, Facebook और Amazon जैसी कंपनियां अपने Customers तक पहुँचने के लिए Data Science का उपयोग करती हैं। और इसके लिए Users द्वारा दिए गए Data का इस्तेमाल करती हैं। लेकिन डाटा साइंंस का मतलब सिर्फ Customers को Track करना नहीं है। बल्कि इसका दायरा बहुत बड़ा है। और जैसे जैसे समय आगे बढ़ रहा है, Data Science का उपयोग भी लगातार बढ़ता जा रहा है। इसलिए जरूरी है कि आप Data Science के बारे में जानें।

Data Science Kya Hai?

डाटा साइंस (Data Science) एक ऐसा विज्ञान है, जिसमें डाटा का अध्ययन किया जाता है। अर्थात् Data को मथकर उसमें से सूचनाऐं निकाली जाती है। और इसके लिए विभिन्न Algorithms, Systems और Scientific Methods का प्रयोग किया जाता है। अगर आसान भाषा में कहूँ तो यह e-Waste से सोना निकालने जैसा है। यानि कि इसमें बहुत सारे Structured और Unstructured Data को इकट्ठा करके विभिन्न Processes से गुजारा जाता है। और उसमें से Knowledge और Insights को अलग करके विभिन्न कार्यों में इस्तेमाल किया जाता है।

आमतौर डाटा साइंंस का इस्तेमाल Big Data को Study करने, व्यवस्थित करने और काम की सूचनाऐं निकालने के लिए किया जाता है। उदाहरण के लिए, देश की जनसंख्या (जनगणना) के आंकड़ों में से महिला, पुरूष, साक्षर, निरक्षर, बच्चे, युवा, वृद्ध, सरकारी कर्मचारी, प्राइवेट कर्मचारी आदि के आंकड़ों को अलग करने के लिए Data Science का उपयोग किया जाता है।

अवश्य पढ़ें: Digital Marketing क्या है? डिजिटल मार्केटिंग के प्रकार व फायदे

इसके अलावा विभिन्न कंपनियांँ अपने Product को बेहतर बनाने, Sales बढ़ाने और नये Cutomers जोड़ने के लिए ग्राहकों के Data का इस्तेमाल करती है। और इस डाटा को Study करने के लिए Data Science का उपयोग करती हैं। ताकि वे जान पाऐं कि उनके प्रोडक्ट्स लोगों को कितने पसंद आ रहे हैं? और उनमें और क्या-क्या सुधार किए जा सकते हैं। ताकि Customers उनके साथ जुड़े रह सकें।

Data Sciences काम कैसे करता है?

अब सवाल यह है कि Data Science काम कैसे करता है? How does data science work? तो यह एक पेचीदा प्रक्रिया है। लेकिन मैं आपको आसान भाषा में समझाने की कोशिश करता हूंँ। मान लीजिए कि एक कचरे का बहुत बड़ा ढ़ेर है, जिसमें कुछ हीरे (Diamonds) हैं। और आपको उन्हें अलग करना है। आप क्या करेंगे? जाहिर है, सबसे पहले कचरे के छोटे-छोटे ढ़ेर बनाऐंगे। और फिर एक-एक ढ़ेर में से थोड़ा-थोड़ा कचरा लेकर उसे खंगालेंगे। और उसमें जो हीरे मिलेंगे, उन्हें अलग करते जाऐंगे और कचरे को अलग। इस तरह सारे कचरे को प्रोसेस करके उसमें से सारे हीरे निकाल लेंगे। है ना? बस, इसी तरह Data Science काम करता है।

Data Science में भी बहुत सारे Raw Data को Analyse करके उसमें से काम की Information को ढूँढा जाता है। और इसके लिए विभिन्न Scientific Methods और Algorithms का प्रयोग किया जाता है। इसके लिए एक Data Scientist के पास पर्याप्त Skills होनी चाहिए। और उसे Data Engineering, Mathematics, Visualization, Programming जैसे विषयों की अच्छी Knowledge होनी चाहिए। तभी वह डाटा के ढ़ेर से काम की Information निकल सकता है। वरना, बहुत मुश्किल है।

अवश्य पढ़ें: Affiliate Marketing क्या है? इससे पैसे कैसे कमाएं?

एक Data Scientist, सबसे पहले समस्या का पता लगाता है। और फिर उससे Related Data इकट्ठा करता है। उसके बाद उसे Analysis के लिए Process करता है। और फिर डाटा को Explore करता है। उसके बाद अपने Skills की मदद से In-Depth Analysis करता है। और अंत में Analysis Result Announce करता है। इस दौरान Data Model बनाने और Prediction करने के लिए Machine Learning और Deep Learning का भी इस्तेमाल होता है।

Example of Data Science

अब पूछेंगे कि डाटा साइंस का हमारे दैनिक जीवन में क्या उपयोग है? कोई Real Life Example हो तो बताओ। तो चलिए, मैं एक Real Life Example of Data Science बताता हूँ। आप Netflix, Amazon Prime Videos, Hotstar, JioCinema, Alt Balaji और Zee5 जैसे OTT Platform तो इस्तेमाल जरूर करते होंगे। अगर करते हैं तो अपनी पसंंद की Movies, Web Series और TV Shows वगैरह भी देखते होंगे! है ना?

लेकिन अगर आपने नोटिस किया है तो आपक पता होगा कि तो ये तमाम OTT Platforms आपको उसी तरह की Movies Suggest करते हैं! जो आप अमूमन देखते हैं। असल में ये Platforms आपका Data Collect करते हैं। और उसकी मदद से यह पता करते हैं कि आप किस तरह की फिल्में देखना पसंंद करते है? यानि कि Comedy, Action, Drama, Suspense या Science Fiction? आपको किस तरह की फिल्में पसंंद है? उसी Genre की फिल्में आपको Suggest की जाती हैं। यह सब Data Science की मदद से ही संभव हो पाता है।

Data Scientist कौन होता है?

डाटा साइंटिस्ट (Data Scientist) एक Highly Skilled Person होता है। जिसके पास ढ़ेर सारी Skills होती हैं। उसके पास Data Engineering, Mathematics, Social Science, Technology, Programming, Machine Learning, Deep Learning, Statistics और Artificial Intelligence जैसे विषयों की गहरी समझ होती है। और समस्याओं का पता लगाने और उनका समाधान खोजने की योग्यता होती है।

अवश्य पढ़ें: Naaptol से ऐसे लीक होता है आपका Personal Data

एक Data Scientist को पता होता है कि कौनसी समस्या का समाधान खोजा जाना चाहिए? और कहाँ से उसके लिए Data लिया जाना चाहिए? यानि कि डाटा साइंंटिस्ट Data को Mine करने, Clean करने और Analyse करने में Expert होता है। अगर आसान शब्दों में कहें, तो Data Scientist एक ऐसा व्यक्ति है। जो बहुत बड़े डाटा (Big Data) को Collect करने, Analyse करने और Present करने में Expert होता है।

Data Science के महत्वपूर्ण तत्व

असल में Data Science जितना आसान दिखता है उतना आसान है नहीं। इसका दायरा काफी विस्तृत है। और इसके कई घटक हैं। इसमें Large Amount of Data को इकट्ठा करने और उसको एनालाइज करके महत्वपूर्ण जानकारियां निकालने के लिए कई सारे Tools और Techniques का इस्तेमाल किया जाता है। लेकिन अगर Data Science के मुख्य घटकों की बात करें, तो वे निम्नलिखित हैं :-

1. Statistics (सांख्यिकी)

सांख्यिकी सबसे महत्वपूर्ण घटक है। यह Data Science का एक जरूरी Component है। इसका इस्तेमाल सेट में मौजूद संख्यात्मक डेटा को Analyze करने में किया जाता है। जैसे कि Phone Number, Prices, Income आदि के आँकड़े Present करने के लिए सांख्यिकी का उपयोग किया जाता है। इसीलिए यह डाटा साइंंस का सबसे खास हिस्सा है।

2. Machine Learning 

Machine learning (ML) आर्टिफिशियल इंटेलिजेंस का ही एक हिस्सा है! जिसका इस्तेमाल डाटा साइंस में भी किया जाता है। Machine Learning के इस्तेमाल से Big Data को Analyse करना काफी आसान होता है। क्योंकि इसकी मदद से मशीनें खुद ही Data को Analyse करके Result दे देती हैं। इसके लिए पहले एक Data Model तैयार किया जाता है। और उसे अच्छी तरह Trained किया जाता है।

अवश्य पढ़ें: Machine Learning (ML) क्या है? कैसे काम करती है?

जैसा कि पिछले आर्टिकल में आप ऑलरेडी पढ़ चुके हैं कि किस तरह Machine Learning Models को Trained किया जाता है? और किस तरह Prediction करना सिखाया जाता है? इसीलिए दुबारा बताने का कोई तुक नहीं बनता। खैर, डाटा मॉडल, Data Analysis की प्रक्रिया को Automatic कर देता है। जिससे डाटा को Analyse करना काफी आसान हो जाता है। और समय की भी काफी बचत होती है।

3. Deep Learning

डीप लर्निंग एक तरह की Advanced Machine Learning है। जो कि Artificial Intelligence का ही एक हिस्सा है। Deep Learning की मदद से मशीनों में इंसानों की तरह सोचने-समझने और Act करने की क्षमता विकसित की जाती है। लेकिन अगर Data Science की बात करें तो इसमें In-Depth Data Analysis के लिए Deep Learning का प्रयोग किया जाता है। अर्थात् मशीनों की मदद से Data को Analyse किया जाता है।

आमतौर पर Structured Data को Process करने के लिए Machine Learning का उपयोग जाता है। लेकिन Unstructured और Complicated Data के लिए Deep Learning का उपयोग किया जाता है। क्योंकि डीप लर्निंग की मदद से Unstructured Data को बिना इंसानी मदद के Easily Process किया जा सकता है ।

Data Science Life Cycle

डाटा को Analyse करने और उससे Valuable Information निकालने की एक तयशुद्दा प्रक्रिया है! जिसे Data Science Life Cycle कहा जाता है। इस प्रक्रिया को फॉलो करके ही एक Data Scientist वांछित परिणाम प्राप्त कर सकता है। क्या है यह प्रक्रिया? आइए, जानते हैं। Data Science Life Cycle Step By Step :-

1. Problem Identification

डाटा साइंस का पहला चरण है, Problem को Identify करना। अर्थात् समस्या का पता लगाना। इसे Business Understanding भी कहा जाता है। क्योंकि इसके लिए Business के एक-एक पहलू को समझना पड़ता है। और Problem की जड़ तक पहुँचना पड़ता है। इसीलिए यह काफी मुश्किल होता है। खासकर तब, जब एक Successful Business Model के लिए Strategy बनानी हो।

2. Data Collect करना

दूसरा चरण है, Data Collect करना। यह सबसे महत्वपूर्ण स्टेप होता है। क्योंकि आगे की पूरी प्रक्रिया इसी Step पर निर्भर होती है। इसीलिए विभिन्न स्त्रोतों से Quality Data इकट्ठा किया जाता है। और इसके लिए Valid तथा Reliable Sources का चुनाव किया जाता है। यानि कि ऐसे Sources का चुनाव किया जाता है। जहाँ से Fresh, Relevant और High Quality Data मिल सके। इस प्रक्रिया को Data Mining के नाम से जाना जाता है।

अवश्य पढ़ें: Firewall क्या है? यह कैसे काम करता है? और क्यों जरूरी है?

यह डाटा कुछ भी हो सकता है। जैसे कि आप कौनसा टूथपेस्ट इस्तेमाल करते हैं? कौन-कौनसे Brands के कपड़े पहनते हैं? कौन-कौनसे Products को Frequently Buy करते हैं? किस तरह की Books पढ़ना पसंद करते हैं। वगैरह-वगैरह। इसके अलावा यह डाटा किसी भी Trusted Source से इकट्ठा किया जा सकता है। जैसे कि Social Media, Webserver, APIs आदि। आम तौर पर Data Collect करने के दो तरीके होते हैं :

  1. Python में Web Scrapping द्वारा
  2. APIs द्वारा।

3. Data Cleaning & Processing

डाटा Collect करने के बाद बारी आती है अगले चरण की। अर्थात् Data Preparation की। यह एक महत्वपूर्ण चरण है, जिसमें Data को Analysis के लिए तैयार किया जाता है। अर्थात् पहले से इकट्ठा किये हुए डाटा को Clean किया जाता है। और उसमें मौजूद कमियों को दूर किया जाता है।

इस दौरान Unwanted, Duplicate और Low Quality Data को हटाया जाता है। और Missing Values, Rows और Columns को Fix किया जाता है। यानि कि Data में जो-जो कमियाँ अथवा त्रुटियां होती हैं। उन्हें ठीक किया जाता है ताकि सटीक आंंकड़ें प्राप्त हों। यह एक समय लेने वाली प्रक्रिया होती है। लेकिन इसका परिणाम काफी सुखद होता है।

अवश्य पढ़ें: Kernel क्या है? इसका हमारे Phone में क्या उपयोग है?

डाटा को Analyse करने के लिए Data Processing एक महत्वपूर्ण प्रकिया है। आमतौर पर जो डाटा विभिन्न Sources से इकट्ठा किया जाता है, वह Raw Data होता है। यानि कि उसमें कई तरह की अशुद्धियाँ होती हैं। यह पूरी तरह Noisy, Unfiltered व Unstructured Data होता है। इसलिए इसे Clean व Process करना बेहद जरूरी होता है। इस प्रक्रिया में Data Modelling और Data Clustering जैसी Techniques की मदद ली जाती है। डाटा को सही तरीके से प्रोसेस करने के बाद वह Analysis के लिए तैयार हो जाता है ।

4. Exploratory Data Analysis

डाटा प्रोसेसिंग के बाद बारी आती है Exploratory Data Analysis (EDA) की। यह एक महत्वपूर्ण चरण है, जिसमें प्रोसेस किए हुए Data का In-Depth Analysis किया जाता है। यानि कि तमाम Data Features और Data Properties का गहराई से अध्ययन किया जाता है। और डाटा में मौजूद Patterns और Valuable Insights खोजने के लिए Datasets को Visualise किया जाता है।

5. Model Building & Evaluation

डाटा एनालिसिस के बाद बारी आती है Model Building तथा Evaluation की। इस चरण में पिछले चरण के डाटा को 2 Sets में बांटा जाता है। एक Training Set और दूसरा Testing Set. ट्रेनिंग सेट का इस्तेमाल Model को Trained करने के लिए किया जाता है। इसके लिए पहले समस्या को ध्यान में रखते हुए एक मॉडल (ML Model) का निर्माण किया जाता है। और उसे अच्छे-से प्रशिक्षित (Trained) किया जाता है।

अवश्य पढ़ें: CAPTCHA क्या है? कैसे काम करता है? कैप्चा के प्रकार

Training के बाद मॉडल का Evaluation (मूल्यांकन) किया जाता है। अर्थात् Test करके देखा जाता है कि वह ठीक से काम कर रहा है या नहीं? इसके लिए Testing Set का उपयोग किया जाता है। यानि कि जो Dataset, Training Set से अलग करके रखा जाता है, उसका इस्तेमाल किया जाता है। ताकि Model की Accuracy का सटीक आंकलन किया जा सके।

6. Result Announcement

अगला और आखिरी चरण है Result Announcement. जब मॉडल Evaluation में Pass हो जाता है। और सही Prediction करने लगता है। तो उसका Result Communicate किया जाता है। अर्थात् Visualisation के जरिए Model का Result प्रस्तुत किया जाता है। इस तरह Data Science की Life Cycle चलती है।

Data Science के उपयोग

अब आपके मन में एक सवाल आ रहा होगा कि आखिर Data Science का उपयोग क्या है? What are the usage of data science? तो आपको बताना चाहूँगा कि डाटा साइंस के कई सारे उपयोग हैं। इसे लगभग हर जगह इस्तेमाल किया जाता है। लेकिन यहाँ हम इसके मुख्य उपयोगों के बारे में बात करेंगे। तो ये हैं डाटा साइंस के मुख्य उपयोग :

  • Youtube, Facebook, Google और Netflix जैसे प्लेटफार्म अपने Content को Recommend करने के लिए Data Science का उपयोग करते हैं। इसके लिए Users के डाटा का इस्तेमाल किया जाता है। और उनके Interest के हिसाब से Content Suggest किया जात है।
  • Google अपने Search Engine को Improve करने और Users को बेहतर खोज नतीजे दिखाने के लिए डाटा साइंस का इस्तेमाल करता है साथ ही Gmail में Spam Filtering के लिए भी इसका इस्तेमाल किया जाता है ।
  • Google Assistant, Alexa, और Siri जैसे Speech Recognition Systems में भी Data Science का काफी ज्यादा इस्तेमाल होता है। इस तरह के तमाम Virtual Assistants यूजर्स के Data को Utilise करके ही सीखते हैं।
  • Driverless Cars में भी Data Science का इस्तेमाल किया जाता है। इसमें Machine Learning के जरिए Traffic Lights और Road पर चल रहे बाकी वाहनों को Recognise किया जाता है।
  • Uber और Ola जैसी ट्रांसपोर्ट कंपनियाँ भी Weather, Traffic और अन्य Situation में अपनी Prices Set करने में लिए डाटा साइंंस का इस्तेमाल करती हैं। 

Data Science Tools

एक Data Scientist को अपने हर प्रोजेक्ट के लिए ढ़ेर सारा Data Collect करना पड़ता है। और उसे Clean, Process और Analyse करना पड़ता है। इसीलिए यह काफी मुश्किल और थका देने वाला काम होता है। लेकिन कई ऐसे Tools हैं, जो इस काम को आसान बना देते हैं। आइए, इन टूल्स के बारे में जानते हैं। The Tools of Data Science :-

1. Python

अगर आप Programming के बारे में थोड़ी-सी भी जानकारी रखते हैं तो Python के बारे में जरूर जानते होंगे। यह असल में एक Programming Language है, जो Data Science में काफी ज्यादा इस्तेमाल होती है। अगर आप एक Successful Data Scientist बनने की सोच रहे हैं तो आपको Python का Knowledge होना बहुत जरूरी है।

2. R Programming

यह एक Statistical Programming Tool है। जिसकी मदद से Data Scientist किसी बड़े डाटा का Analysis कर पाते हैं ।

3. SQL

SQL भी एक Programming Language है जिसका Data Science में उपयोग किया जाता है। इसका पूरा नाम होता है Structured Query Language इसका इस्तेमाल Relational Database में मौजूद Structured डाटा को Analyse करने के लिए किया जाता है

4. Hadoop

Apache Hadoop डाटा साइंस के लिए एक पॉपुलर टूल है। यह एक ओपन सोर्स सॉफ्टवेयर है। जिसका इस्तेमाल डाटा साइंस में बड़े Datasets को स्टोर करने के लिए किया जाता है ।

Summary

जिस तरह से Data Science के क्षेत्र में लगातार विकास देखने को मिल रहा है। आने वाले समय में Data Science के और भी Advanced Applications देखने को मिल सकते हैं। Data Science का इस्तेमाल बड़ी बड़ी Tech कंपनियां तो कर रही है। साथ ही इसका इस्तेमाल Medical Sector, Security और Transport sector में भी देखने को मिल रहा है।

उम्मीद इस आर्टिकल के जरिए आपको Data Science Kya Hai? यह कैसे काम करता है? और इसके क्या-क्या उपयोग हैं? इस विषय में उपयोगी जानकारी मिली होगी! अगर यह आर्टिकल आपको पसंद आया तो इसे Like और Share कीजिए। और ऐसे ही और ज्ञानवर्धक आर्टिकल्स के लिए टेकसेवी डॉट कॉम को सब्सक्राइब कर लीजिए।। ताकि जब भी हम कोई नया आर्टिकल पब्लिश करें, आपको सूचना मिल जाए।

Data Science : FAQs

प्रश्न-1. डाटा साइंस क्या है?

उत्तर: डाटा साइंस एक ऐसा विज्ञान है, जिसमें Data का अध्ययन किया जाता है। और विभिन्न Algorithms और Scientific Methods के जरिए Data से Valuable Information निकाली जाती है।

प्रश्न-2. डाटा साइंटिस्ट क्या होता है?

उत्तर: डाटा साइंटिस्ट एक Professional व्यक्ति होता है। जिसके पास Data Engineering, Mathematics, Visualization, Programming, Statistics और Analytics की अच्छी-खासी समझ होती है। और समस्या का पता लगाकर उसका समाधान करने की योग्यता होती है।

प्रश्न-3. डाटा साइंटिस्ट क्या करता है?

उत्तर: डाटा साइंंटिस्ट, सबसे पहले समस्या का पता लगाता है और उससे Related Data Collect करता है। उसके बाद डाटा को Clean, Process व Analyse करता है। तत्पश्चात Data Model का निर्माण करके उसे Trained व Evaluate करता है। और अंत में Model का Result Communicate करता है।

प्रश्न-4. डाटा साइंंस के मुख्य तत्व कौन-कौनसे हैंं?

उत्तर: सांख्यिकी (Statistics), Visualization, Machine Learning और Deep Learning डाटा साइंंस के मुख्य तत्व हैं।

प्रश्न-5. डाटा साइंंस जीवन चक्र क्या है?

उत्तर: डाटा साइंस जीवन चक्र (Data Science Life Cycle) डाटा से सूचनाएं निकालने की एक स्टेप-बाई-स्टेप प्रोसेस है। जिसमें समस्या का पता लगाना, Data Collect करना, Data को Clean व Process, Analysis करना, Modelling तथा Evaluation करना और अंत में Result Communication करना शामिल है।

प्रश्न-6. डाटा साइंस के क्या-क्या उपयोग हैं?

उत्तर: डाटा साइंस के कई सारे उपयोग हैं। जैसे कि Social Media Users को Content Recommend करने और Relevant Ads दिखाने के लिए डाटा साइंंस का उपयोग किया जाता है। इसी तरह Search Engines पर बेहतर सर्च परिणाम दिखाने, eCommerce Websites पर Products Recommend करने, Insurance Policy बेचने, Traffic Report दिखाने और Virtual Assistant में डाटा साइंंस का व्यापक स्तर पर इस्तेमाल किया जाता है।

प्रश्न-7. डाटा साइंस में कौन-कौनसे Tools का इस्तेमाल किया जाता है?

उत्तर: डाटा साइंस में कई सारे Tools का इस्तेमाल किया जाता है। जैसे कि Excel, Python, SQL, Qlik, BigML, Tableau, Machine Learning, SAS, Apache Hadoop आदि।

अवश्य पढ़ें (खास आपके लिए) :-

Comment

error: Content is protected !!
%d bloggers like this: