数据分析师面试问题与解答

数据分析是将数据转化为对决策有用的信息的过程。 出于各种原因,数据分析在许多企业中都至关重要,因此全球对数据分析师的需求很大。 本调查问卷包含您需要了解的有关数据分析师职位的所有信息,从数据清理到数据验证。

数据分析师面试问题

破解面试的前 21 个数据分析师面试问题和答案 

1. 如何区分数据湖和数据库服务器?

样本答案 

数据湖只是一个没有明确目的的大型非结构化数据池。 数据仓库是一个可以存储先前针对特定功能分析过的经过组织和过滤的数据的位置。 这两种数据保留技术有时是错误的,但它们有很大的不同。 新手可能没那么容易分辨。

2. 描述数据分析师采用的一些数据分析方法。

样本答案

数据分析需要应用各种统计方法。 以下是一些最重要的:

  • 使用马尔可夫过程进行聚类分析
  • 插补技术
  • 基于贝叶斯的方法论
  • 统计排名

3. 描述概率语言模型是如何工作的。

样本答案

给定文本或语音中的 n 个元素的链接序列被表征为 N-gram,也称为基于概率的语言模型。 它本质上是由原文中n个节点的相邻单词或字符组成的。 

简而言之,它是一种预测系列中下一个元素的方法。

4. 使用版本控制有哪些好处?

样本答案

版本控制可用于检查自初始副本以来信息的删除、编辑和创建。 

它有助于区分材料的多种变体。 因此,可以快速识别最新版本。

5. 区分方差和协方差。

样本答案

数据集合与其平均值或平均值的变化在统计中称为方差。 只要方差较高,所收集数据中的值就远离平均值。 当变化较小时,数字接近平均值。

另一个流行的统计概念是协方差。 协方差是关于两个或多个变量在统计数据中相互比较时如何变化的指标。

6. K-means算法意味着什么?

样本答案

K-mean 是最著名的分区算法之一。 使用这种不受控制的学习方法对未标记的数据进行聚类。 节点数由字母“k”表示。 它努力保持每个集群与其他集群不同。 集群将没有可操作的标识符,因为它是一个不受监管的模型。

7. 你所说的“逻辑回归”到底是什么意思?

样本答案

逻辑回归是一种数学模型,用于分析具有影响特定结果的一个或多个依赖因素的数据集。 该模型通过评估各种独立因素之间的联系来建议相关数据元素。

8. 描述层次聚类的多种形式。

样本答案

有两种可用的聚类技术:

  • 通过凝聚聚类(使用自下而上的策略来分解集群)
  • 划分的聚类(使用自上而下的策略来分解聚类)

9. 你所说的“时间序列分析”到底是什么意思?

样本答案

时间序列分析 (TSA) 学科在一段时间内研究了一系列数据点。 在 TSA 中,分析师定期捕获数据项,而不是偶尔或任意地捕获它们。 可以在时频域中实现它。 由于其广泛的应用范围,TSA 可用于多个部门。 

10. 详细描述协同过滤。

样本答案

协同过滤 (CF) 基于用户活动数据生成推荐系统。 它通过评估来自其他用户及其交互的数据来过滤信息。 该策略假设对某个项目的评价达成一致的人很可能在不久后再次对此达成一致。

11. 描述理想数据模型的特征。

样本答案

一个数据模型要被认为是优秀的和发达的,必须具备以下特征:

  • 提供预测性能,允许尽可能准确或几乎准确地预测结果。
  • 当公司要求更改以满足所需的调整时,它应该是通用的和响应的。
  • 模型应按比例调整以适应数据的变化。
  • 客户/客户应该能够以具体且有利可图的方式从中受益。

12. 列出数据分析的缺点。

样本答案

数据分析的一些缺点如下:

  • 数据分析可能会危及客户隐私,从而可能危及付款、订单和注册。
  • 工具可能难以使用并且需要事先培训。
  • 每次选择最好的分析平台都需要大量的知识和经验。

13. 数据分析师的职位描述是什么?

样本答案

  1. 统计技术用于收集和评估数据,然后报告结果。
  2. 解释和分析复杂数据集的趋势或模式。
  3. 在业务或管理团队的帮助下确定业务需求。
  4. 解决问题的能力、协作以及技术和人际语言技能都很重要。
  5. 撰写查询、报告和演示文稿是我的强项。
  6. 知道如何使用数据可视化工具。 

14. 列出作为数据分析师的一些最重要的能力。

样本答案

  • 能够正确有效地评估、组织、收集和交流大量数据。
  • 创建数据库、数据模型、数据挖掘和数据分段的能力。
  • 要分析庞大的数据集,您需要很好地掌握统计软件。

15.数据分析的具体流程是怎样的?

样本答案

以下是从长远来看所需的一些过程:

从多个来源收集数据,然后存储以进行清理和处理。 在此阶段删除所有缺失数据和异常值。

数据分析:生成数据后,接下来的步骤是对其进行检查。 多次运行可以提高模型的性能。 然后验证模型以确认它满足标准。

生成报告:在流程结束时,将模型付诸实施,并创建报告并将其发送给利益相关者。

16. 分析数据时遇到的各种问题是什么?

样本答案

  • 不切实际的最后期限和相关利益相关者的雄心
  • 来自众多来源的数据轮廓是困难的,尤其是在参数和规范不一致的情况下。
  • 数据基础设施和技术不足,无法满足分析的最后期限。
  • 有多余的列表和拼写错误的单词。 这些不准确可能会阻碍和损害数据质量。
  • 来自众多来源的数据可能具有不同的表示形式。 如果获得的数据在已经被清除和结构化之后混合,则可能会在分析阶段产生延迟。
  • 数据不足是数据分析中的另一个关键问题。 这几乎肯定会导致错误或不准确的发现。

如果您从错误的来源获取数据,您将不得不投入大量精力来清理它。

17. 描述数据的净化。

样本答案

数据清理,有时称为数据清理或数据整理,是检测然后根据需要更改、替换或删除错误、不充分、错误、冗余或遗漏数据的过程。 数据科学的这一基本组成部分可确保数据准确、一致且可用。

18. 定义术语“数据挖掘”和“数据剖析”。

样本答案

数据挖掘过程需要研究数据以识别以前未知的关系。 查找异常数据、识别依赖关系和评估集群都是此场景中的优先事项。 它还需要研究大量数据库以发现趋势和模式。

数据剖析过程需要检查数据的各个属性。 在这种情况下,重点是提供重要的数据属性,如数据类型、频率等。 它还可以更轻松地查找和评估企业元数据。

19. 数据分析师使用哪些验证技术?

样本答案

以下是数据分析师使用的一些最普遍的数据验证方法:

  • 实地验证
  • 表单级别的验证
  • 保存数据的验证
  • 搜索条件的验证

20. 描述异常值。

样本答案

离群值是数据集中明显偏离数据集独特属性平均值的值。 我们可以借助异常值来识别定量变异性或意外采样。 离群值被分类为单变量或多变量。 

21. 数据挖掘和数据分析有什么区别?

样本答案

数据分析是收集、清理、转换、建模和显示数据以获取可用于进行推理和选择未来步骤的可用和相关信息的过程。 数据分析始于 1960 年代。

数据挖掘是分析数据的过程。 数据挖掘,又称数据库信息检索,是对海量数据进行调查和分析,找出规律和规律。

参考文献 

  1. https://onlinelibrary.wiley.com/doi/full/10.1111/gwao.12684
  2. https://journals.sagepub.com/doi/full/10.1177/16094069211062419
一个请求?

我付出了很多努力来写这篇博文,为您提供价值。 如果您考虑在社交媒体上或与您的朋友/家人分享,这对我很有帮助。 分享是♥️