数据解析总结岗位笔试卷试题目总结.docVIP

数据解析总结岗位笔试卷试题目总结.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析岗位笔试题目总结 阿里巴巴 1、异常 是指什么 ? 列 1 种 型 量异常 的方法 ? 异常 (Outlier) 是指 本中的个 ,其数 明 偏离所属 本的其余 。在数理 里一般是指一 中与平均 的偏差超 两倍 准差的 定 . 常 的异常 方法如下: 基于 的方法 基于距离的方法 基于密度的方法 基于聚 的方法 基于偏差的方法 基于 xx 的方法 t :按照 t 分布的 差分布范 来判 异常 ,首先剔 除一个可疑 ,然后按 t 分布来 剔除的 是否 异常 。 法:假 一 数据有序 x1x2?xn,且服从正 分布, 异常 最有可能出 在两端 x1 和 xn。 数据分析岗位笔试题目总结 格拉布斯检验法:与 xx 检验法思想一样,其检验公式为: 指数分布检验: SPSS和 R语言中通过绘制箱图可以找到异常值,分布在箱边框 外部; 2、什么是聚类分析 ?聚类算法有哪几种 ?请选择一种详细描述其 计算原理和步骤。 聚类分析 (cluster analysis) 是一组将研究对象分为相对同质 的群组 (clusters) 的统计分析技术。聚类分析也叫分类分析 (classification analysis) 或数值分类 (numerical taxonomy) 。聚 类与分类的不同在于,聚类所要求划分的类是未知的。 数据分析岗位笔试题目总结 聚类分析计算方法主要有:层次的方法 (hierarchical method) 、 划分方法 (partitioning method) 、基于密度的方法 (density-based method)、基于网格的方法 (grid-based method) 、基于模型的方法 (model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。 常见的聚类方法有: K-pototypes 算法,K-Means算法,CLARANS算法(划分方法),BIRCH算法(层次方法),CURE算法(层次方法),DBSCAN算法(基于密度的方法) ,CLIQUE算法(综合了基于密度和基于网格的算法) ; k-means 算法的工作过程说明如下: 首先从 n 个数据对象任意选 k 个对象作为初始聚类中心 ; 而对于所剩下其它对象, 则根据它们与这些聚类中心的相似度 ( 距离 ) ,分别将它们分配给与其最相似的 ( 聚类中心所代表的 ) 聚类 ; 然后再计算每个所获新聚类的聚类中心 ( 该聚类中所有对象的均值 ); 不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数 . k 个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 其流程如下: 从 n 个数据对象任意选择 k 个对象作为初始聚类中心 ; 根据每个聚类对象的均值 ( 中心对象 ) ,计算每个对象与这些中心对象的距离 ; 并根据最小距离重新对相应对象进行划分 ; 重新计算每个 ( 有变化 ) 聚类的均值 ( 中心对象 ); 数据分析岗位笔试题目总结 循环 (2) 、(3) 直到每个聚类不再发生变化为止 ( 标准测量函数 收敛 ) 。 优点:本算法确定的 K 个划分到达平方误差最小。当聚类是密 集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这 个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt) ,其中 N是 数据对象的数目, K是聚类中心, t 是迭代的次数。 缺点:1. K 是事先给定的,但非常难以选定 ;2. 初始聚类中心的选择对聚类结果有较大的影响。 数据标准化技术 是将数据按比例缩放, 使之落入一个小的特定区间。 去除数据的单位限制,将其转化为无量纲的纯数值, 便于不同单位或量级的指标能够进行比较和加权。常用的方法有: 1)总和标准化。分别求出各要素所对应的数据的总和,以各要素的数据除以该要素的数据的总和,即 数据分析岗位笔试题目总结 缺失值处理方法 1) 直接丢弃含缺失数据的记录 如:个案剔除法,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备, 会造成资源的大量浪费, 丢弃了大量隐藏在这 数据分析岗位笔试题目总结 些对象中的信息。 当缺失数据所占比例较大, 特别是当缺数据非随机分布时,这种方法可能导致数据发生偏离,从而得出错误的结论。 2)补缺 用平均值来代替所有缺失数据:均值替换法,均值替换法也 是一种简便、快速的缺失数据处理方法。 使用均值替换法插补缺失数据,对该变量的均值估计不会产生影响。 但这种方法是建立在完全随机缺失(MCAR)的假设之上的,而且会造成变量的方差和标准差变小。 K - 最近距离邻居法:先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的 K 个样本,将这

文档评论(0)

135****8847 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档