डेटा विश्लेषक साक्षात्कार प्रश्न और उत्तर

डेटा विश्लेषण निर्णय लेने के लिए डेटा को उपयोगी जानकारी में बदलने की प्रक्रिया है। डेटा एनालिटिक्स कई कारणों से कई व्यवसायों में महत्वपूर्ण है, इसलिए दुनिया भर में डेटा विश्लेषकों की महत्वपूर्ण आवश्यकता है। इस प्रश्नावली में डेटा क्लींजिंग से लेकर डेटा सत्यापन तक, डेटा विश्लेषक पद के बारे में वह सब कुछ शामिल है जो आपको जानना आवश्यक है।

डेटा विश्लेषक साक्षात्कार प्रश्न

साक्षात्कार में सफल होने के लिए शीर्ष 21 डेटा विश्लेषक साक्षात्कार प्रश्न और उत्तर 

1. आप डेटा लेक और डेटाबेस सर्वर के बीच अंतर कैसे करते हैं?

नमूना उत्तर 

डेटा लेक बिना किसी स्पष्ट उद्देश्य के असंरचित डेटा का एक बड़ा पूल है। डेटा वेयरहाउस एक ऐसा स्थान है जहां व्यवस्थित, फ़िल्टर किया गया डेटा संग्रहीत किया जा सकता है जिसका पहले किसी विशेष फ़ंक्शन के लिए विश्लेषण किया गया हो। डेटा प्रतिधारण की दो तकनीकें कभी-कभी गलत होती हैं, फिर भी वे काफी भिन्न होती हैं। नवागंतुक शायद इतनी आसानी से अंतर करने में सक्षम न हों।

2. डेटा विश्लेषकों द्वारा अपनाए जाने वाले कुछ डेटा विश्लेषण दृष्टिकोणों का वर्णन करें।

नमूना उत्तर

डेटा विश्लेषण के लिए विभिन्न प्रकार के सांख्यिकीय दृष्टिकोणों के अनुप्रयोग की आवश्यकता होती है। इनमें से कुछ सबसे महत्वपूर्ण निम्नलिखित हैं:

  • मार्कोव प्रक्रिया का उपयोग करके क्लस्टर विश्लेषण
  • आरोपण की तकनीक
  • बेयस पर आधारित पद्धतियाँ
  • सांख्यिकीय रैंकिंग

3. वर्णन करें कि एक संभाव्य भाषा मॉडल कैसे काम करता है।

नमूना उत्तर

किसी दिए गए पाठ या आवाज में एन-तत्वों के एक जुड़े अनुक्रम को एन-ग्राम के रूप में जाना जाता है, जिसे संभाव्यता-आधारित भाषा मॉडल के रूप में भी जाना जाता है। यह मूलतः मूल पाठ के पड़ोसी शब्दों या n नोड्स के वर्णों से बना है। 

सरल शब्दों में, यह किसी श्रृंखला में अगले तत्व की भविष्यवाणी करने की एक विधि है।

4. संस्करण नियंत्रण के उपयोग के कुछ लाभ क्या हैं?

नमूना उत्तर

प्रारंभिक प्रतिलिपि के बाद से जानकारी के विलोपन, संपादन और निर्माण की जांच करने के लिए संस्करण नियंत्रण का उपयोग किया जा सकता है। 

यह सामग्री की अनेक विविधताओं में अंतर करने में सहायता करता है। परिणामस्वरूप, नवीनतम संस्करण की तुरंत पहचान की जा सकती है।

5. प्रसरण और सहप्रसरण के संबंध में अंतर करें।

नमूना उत्तर

किसी डेटा संग्रह की उसके माध्य या औसत मूल्य से भिन्नता को सांख्यिकी में भिन्नता के रूप में जाना जाता है। जब भी विचरण अधिक होता है तो एकत्रित डेटा में मान माध्य से बहुत दूर होते हैं। जब विविधताएं कम होती हैं तो संख्याएं औसत के करीब होती हैं।

एक अन्य लोकप्रिय सांख्यिकीय धारणा सहप्रसरण है। सहप्रसरण एक संकेतक है कि सांख्यिकीय डेटा में एक दूसरे की तुलना में दो या दो से अधिक चर कैसे भिन्न होते हैं।

6. K-मीन्स एल्गोरिथम का क्या अर्थ है?

नमूना उत्तर

K-मीन सबसे प्रसिद्ध विभाजन एल्गोरिदम में से एक है। इस अनियंत्रित शिक्षण दृष्टिकोण का उपयोग करके बिना लेबल वाले डेटा को क्लस्टर किया जाता है। नोड्स की संख्या को 'k' अक्षर से दर्शाया जाता है। यह प्रत्येक क्लस्टर को दूसरों से अलग बनाए रखने का प्रयास करता है। क्लस्टर के संचालन के लिए कोई पहचानकर्ता नहीं होगा क्योंकि यह एक अनियमित मॉडल है।

7. जब आप "लॉजिस्टिक रिग्रेशन" कहते हैं तो आपका वास्तव में क्या मतलब है?

नमूना उत्तर

लॉजिस्टिक रिग्रेशन एक या अधिक आश्रित कारकों वाले डेटासेट का विश्लेषण करने के लिए एक गणितीय मॉडल है जो एक निश्चित परिणाम को प्रभावित करता है। मॉडल विभिन्न स्वतंत्र कारकों के बीच संबंध का मूल्यांकन करके एक आश्रित डेटा तत्व का सुझाव देता है।

8. पदानुक्रमित क्लस्टरिंग के कई रूपों का वर्णन करें।

नमूना उत्तर

दो प्रकार की क्लस्टरिंग तकनीकें उपलब्ध हैं:

  • समूहन के माध्यम से क्लस्टरिंग (जो क्लस्टर को विघटित करने के लिए बॉटम-अप रणनीति का उपयोग करता है)
  • क्लस्टरिंग जो विभाजित करती है (जो क्लस्टर को विघटित करने के लिए ऊपर से नीचे की रणनीति का उपयोग करती है)

9. जब आप "समय श्रृंखला विश्लेषण" कहते हैं तो आपका वास्तव में क्या मतलब है?

नमूना उत्तर

समय श्रृंखला विश्लेषण (टीएसए) के अनुशासन में कुछ समय तक डेटा बिंदुओं के अनुक्रम का अध्ययन किया जाता है। टीएसए में, विश्लेषक डेटा आइटम को छिटपुट या मनमाने ढंग से कैप्चर करने के बजाय समय के नियमित अंतराल पर कैप्चर करते हैं। इसे समय-आवृत्ति दोनों डोमेन में पूरा करना संभव है। टीएसए को इसके अनुप्रयोगों के विशाल स्पेक्ट्रम के कारण कई क्षेत्रों में नियोजित किया जा सकता है। 

10. सहयोगात्मक फ़िल्टरिंग का विस्तार से वर्णन करें।

नमूना उत्तर

सहयोगात्मक फ़िल्टरिंग (सीएफ) उपयोगकर्ता गतिविधि डेटा के आधार पर एक अनुशंसा प्रणाली उत्पन्न करता है। यह उन अन्य उपयोगकर्ताओं के डेटा और उनकी बातचीत का मूल्यांकन करके जानकारी को फ़िल्टर करता है। यह रणनीति मानती है कि जो व्यक्ति किसी निश्चित वस्तु के मूल्यांकन पर सहमत हैं, वे संभवतः निकट भविष्य में इस पर फिर से सहमत होंगे।

11. एक आदर्श डेटा मॉडल की विशेषताओं का वर्णन करें।

नमूना उत्तर

उत्कृष्ट और विकसित माने जाने के लिए, एक डेटा मॉडल में निम्नलिखित विशेषताएं होनी चाहिए:

  • पूर्वानुमान प्रदर्शन प्रदान करता है, जिससे परिणामों का सटीक या लगभग यथासंभव सटीक अनुमान लगाया जा सकता है।
  • जब कंपनी आवश्यकतानुसार ऐसे समायोजनों को पूरा करने के लिए बदलाव की मांग करती है तो इसे बहुमुखी और उत्तरदायी होना चाहिए।
  • मॉडल को आनुपातिक तरीके से डेटा में परिवर्तनों को समायोजित करना चाहिए।
  • ग्राहकों/ग्राहकों को ठोस और आकर्षक तरीके से इसका लाभ उठाने में सक्षम होना चाहिए।

12. डेटा विश्लेषण की कमियाँ सूचीबद्ध करें।

नमूना उत्तर

डेटा विश्लेषण की कुछ कमियाँ इस प्रकार हैं:

  • डेटा विश्लेषण के परिणामस्वरूप ग्राहक की गोपनीयता खतरे में पड़ सकती है, जिससे संभावित रूप से भुगतान, ऑर्डर और पंजीकरण खतरे में पड़ सकते हैं।
  • उपकरणों का उपयोग करना कठिन हो सकता है और इसके लिए पूर्व प्रशिक्षण की आवश्यकता होती है।
  • हर बार सर्वश्रेष्ठ एनालिटिक्स प्लेटफ़ॉर्म चुनने के लिए बहुत अधिक ज्ञान और अनुभव की आवश्यकता होती है।

13. डेटा विश्लेषक का कार्य विवरण क्या है?

नमूना उत्तर

  1. सांख्यिकीय तकनीकों का उपयोग डेटा एकत्र करने और मूल्यांकन करने के लिए किया जाता है, और फिर परिणाम रिपोर्ट किए जाते हैं।
  2. रुझानों या पैटर्न के लिए जटिल डेटा सेट की व्याख्या और विश्लेषण करें।
  3. व्यवसाय या प्रबंधन टीमों की सहायता से व्यावसायिक आवश्यकताओं की पहचान करना।
  4. समस्या-समाधान क्षमताएं, सहयोग और तकनीकी एवं पारस्परिक भाषा कौशल सभी महत्वपूर्ण हैं।
  5. पूछताछ, रिपोर्ट और प्रस्तुतियाँ लिखना मेरी ताकत है।
  6. डेटा विज़ुअलाइज़ेशन टूल का उपयोग करने का तरीका जानना। 

14. डेटा विश्लेषक के रूप में कुछ सबसे महत्वपूर्ण योग्यताओं की सूची बनाएं।

नमूना उत्तर

  • विशाल डेटा का उचित और कुशलतापूर्वक मूल्यांकन करने, व्यवस्थित करने, एकत्र करने और संचार करने की क्षमता।
  • डेटाबेस, डेटा मॉडल, डेटा माइनिंग और डेटा विभाजन बनाने की क्षमता।
  • विशाल डेटासेट का विश्लेषण करने के लिए, आपको सांख्यिकीय सॉफ़्टवेयर की अच्छी समझ होनी चाहिए।

15. डेटा विश्लेषण की प्रक्रिया वास्तव में क्या है?

नमूना उत्तर

दीर्घावधि में आवश्यक कुछ प्रक्रियाएँ निम्नलिखित हैं:

डेटा को कई स्रोतों से इकट्ठा किया जाता है और बाद में साफ़ और संसाधित करने के लिए संग्रहीत किया जाता है। इस चरण में सभी लापता डेटा और आउटलेर हटा दिए जाते हैं।

डेटा विश्लेषण: एक बार डेटा तैयार हो जाने के बाद, अगला कदम इसकी जांच करना है। किसी मॉडल को कई बार चलाकर उसके प्रदर्शन में सुधार किया जा सकता है। फिर मॉडल को यह पुष्टि करने के लिए सत्यापित किया जाता है कि यह मानदंडों को पूरा करता है।

रिपोर्ट तैयार करें: प्रक्रिया के अंत में, मॉडल को क्रियान्वित किया जाता है, और रिपोर्ट बनाई जाती है और हितधारकों को भेजी जाती है।

16. डेटा का विश्लेषण करते समय किन विभिन्न समस्याओं का सामना करना पड़ता है?

नमूना उत्तर

  • इसमें शामिल हितधारकों की अवास्तविक समय-सीमाएँ और महत्वाकांक्षाएँ
  • कई स्रोतों से डेटा का समोच्च बनाना मुश्किल है, खासकर यदि पैरामीटर और मानदंड असंगत हैं।
  • एनालिटिक्स के लिए समय सीमा को पूरा करने के लिए अपर्याप्त डेटा अवसंरचना और प्रौद्योगिकियाँ।
  • इसमें अनावश्यक सूचियाँ और गलत वर्तनी वाले शब्द हैं। ये अशुद्धियाँ डेटा गुणवत्ता में बाधा डाल सकती हैं और ख़राब कर सकती हैं।
  • अनेक स्रोतों से प्राप्त डेटा का अलग-अलग प्रतिनिधित्व हो सकता है। यदि प्राप्त डेटा को पहले से ही साफ़ और संरचित होने के बाद मिश्रित किया जाता है, तो यह विश्लेषण चरण में विलंबता पैदा कर सकता है।
  • डेटा विश्लेषण में अपर्याप्त डेटा एक और प्रमुख मुद्दा है। इसका परिणाम लगभग निश्चित रूप से गलतियाँ या गलत निष्कर्ष होंगे।

यदि आप किसी ख़राब स्रोत से डेटा प्राप्त कर रहे हैं, तो आपको इसे साफ़ करने के लिए बहुत प्रयास करना होगा।

17. डेटा के शुद्धिकरण का वर्णन करें।

नमूना उत्तर

डेटा क्लीनिंग, जिसे कभी-कभी डेटा स्क्रबिंग या डेटा रैंगलिंग भी कहा जाता है, आवश्यकतानुसार गलत, अपर्याप्त, त्रुटिपूर्ण, निरर्थक या छोड़े गए डेटा का पता लगाने और फिर उसे बदलने, बदलने या हटाने की प्रक्रिया है। डेटा विज्ञान का यह बुनियादी घटक गारंटी देता है कि डेटा सटीक, सुसंगत और प्रयोग करने योग्य है।

18. "डेटा माइनिंग" और "डेटा प्रोफाइलिंग" शब्दों को परिभाषित करें।

नमूना उत्तर

डेटा माइनिंग प्रक्रिया में पहले से अज्ञात संबंधों की पहचान करने के लिए डेटा का अध्ययन करना शामिल है। इस परिदृश्य में असंगत डेटा ढूंढना, निर्भरता को पहचानना और समूहों का मूल्यांकन करना सभी प्राथमिकताएं हैं। इसमें रुझानों और पैटर्न का पता लगाने के लिए बड़े पैमाने पर डेटाबेस का अध्ययन करना भी शामिल है।

डेटा प्रोफाइलिंग की प्रक्रिया में डेटा के व्यक्तिगत गुणों की जांच करना शामिल है। इस स्थिति में, डेटा प्रकार, आवृत्ति इत्यादि जैसे महत्वपूर्ण डेटा गुण प्रदान करने पर ध्यान केंद्रित किया गया है। इससे एंटरप्राइज़ मेटाडेटा को ढूंढना और उसका मूल्यांकन करना भी आसान हो जाता है।

19. डेटा विश्लेषक कौन सी सत्यापन तकनीकों का उपयोग करते हैं?

नमूना उत्तर

डेटा विश्लेषकों द्वारा उपयोग की जाने वाली कुछ सबसे प्रचलित डेटा सत्यापन विधियाँ निम्नलिखित हैं:

  • क्षेत्र स्तर पर सत्यापन
  • प्रपत्र स्तर पर सत्यापन
  • सहेजे गए डेटा का सत्यापन
  • खोज मानदंड का सत्यापन

20. बाहरी वर्णन करें.

नमूना उत्तर

आउटलेयर एक डेटासेट में वे मान हैं जो डेटासेट की विशिष्ट विशेषताओं के माध्य से काफी भिन्न होते हैं। हम बाह्य की सहायता से या तो मात्रात्मक परिवर्तनशीलता या आकस्मिक नमूने की पहचान कर सकते हैं। आउटलेर्स को यूनीवेरिएट या मल्टीवेरिएट के रूप में वर्गीकृत किया गया है। 

21. डेटा माइनिंग और डेटा विश्लेषण के बीच क्या अंतर है?

नमूना उत्तर

डेटा विश्लेषण उपयोगी और प्रासंगिक जानकारी प्राप्त करने के लिए डेटा एकत्र करने, साफ़ करने, परिवर्तित करने, मॉडलिंग करने और प्रदर्शित करने की प्रक्रिया है जिसका उपयोग अनुमान लगाने और भविष्य के चरणों को चुनने के लिए किया जा सकता है। डेटा विश्लेषण 1960 के दशक से होता आ रहा है।

डेटा माइनिंग डेटा का विश्लेषण करने की प्रक्रिया है। पैटर्न और कानूनों का पता लगाने के लिए डेटा माइनिंग में भारी मात्रा में डेटा की जांच और विश्लेषण किया जाता है, जिसे डेटाबेस सूचना पुनर्प्राप्ति भी कहा जाता है।

संदर्भ 

  1. https://onlinelibrary.wiley.com/doi/full/10.1111/gwao.12684
  2. https://journals.sagepub.com/doi/full/10.1177/16094069211062419
एक अनुरोध?

मैंने आपको मूल्य प्रदान करने के लिए इस ब्लॉग पोस्ट को लिखने में बहुत मेहनत की है। यदि आप इसे सोशल मीडिया पर या अपने मित्रों/परिवार के साथ साझा करने पर विचार करते हैं, तो यह मेरे लिए बहुत उपयोगी होगा। साझा करना है ♥️