数据分析岗位笔试题目总结..docxVIP

下载本文档

113
0
约 17页
2017-01-12 发布于重庆
举报
版权申诉

数据分析岗位笔试题目总结..docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据分析岗位笔试题目总结.

阿里巴巴1、异常值是指什么?请列举1种识别连续型变量异常值的方法? 异常值(Outlier) 是指样本中的个别值，其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值.常见的异常值检验方法如下：基于统计的方法基于距离的方法基于密度的方法基于聚类的方法基于偏差的方法基于深度的方法t检验：按照t分布的实际误差分布范围来判别异常值，首先剔除一个可疑值，然后按t分布来检验剔除的值是否为异常值。狄克逊检验法：假设一组数据有序x1x2…xn，且服从正态分布，则异常值最有可能出现在两端x1和xn。格拉布斯检验法：与狄克逊检验法思想一样，其检验公式为：指数分布检验：SPSS和R语言中通过绘制箱图可以找到异常值，分布在箱边框外部；2、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。　聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分类的不同在于，聚类所要求划分的类是未知的。 ?　聚类分析计算方法主要有：层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中，前两种算法是利用统计学定义的距离进行度量。常见的聚类方法有：K-pototypes算法，K-Means算法，CLARANS算法（划分方法），BIRCH算法（层次方法），CURE算法（层次方法），DBSCAN算法（基于密度的方法），CLIQUE算法（综合了基于密度和基于网格的算法）；　k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。　其流程如下：　(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; 　(2)根据每个聚类对象的均值(中心对象)，计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; ?　(3)重新计算每个(有变化)聚类的均值(中心对象); 　(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。　优点：本算法确定的K 个划分到达平方误差最小。当聚类是密集的，且类与类之间区别明显时，效果较好。对于处理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为 O(NKt)，其中N是数据对象的数目，K是聚类中心，t是迭代的次数。缺点：1. K 是事先给定的，但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。 3.数据标准化技术是将数据按比例缩放，使之落入一个小的特定区间。去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。常用的方法有：（1）总和标准化。分别求出各要素所对应的数据的总和，以各要素的数据除以该要素的数据的总和，即 4.缺失值处理方法直接丢弃含缺失数据的记录如：个案剔除法，这种方法却有很大的局限性。它是以减少样本量来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大，特别是当缺数据非随机分布时，这种方法可能导致数据发生偏离，从而得出错误的结论。2）补缺A. 用平均值来代替所有缺失数据：均值替换法，均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据，对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失（MCAR）的假设之上的，而且会造成变量的方差和标准差变小。B. K -最近距离邻居法：先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。C.用预测模型来预测每一个缺失数据：该方法最大限度地利用已知的相关数据，是比较流行的缺失数据处理技术。如：回归替换法，该方法也有诸多弊端，第一，容易忽视随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得更加严重。第二，研究者必须假设存在缺失值所在的变量与其他变量存在线性关系，很多时候这种关系是不存在的。 5..A