数据分析笔试题分析.docVIP

下载本文档

8
0
约7.34千字
约 9页
2021-09-16 发布于山东
举报
版权申诉

数据分析笔试题分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据剖析笔试卷试题剖析数据剖析笔试卷试题剖析 PAGE / NUMPAGES 数据剖析笔试卷试题剖析从互联网巨头数据发掘类招聘笔试题目看我们还差多少知识从阿里数据剖析师笔试看职业要求以下试题是来自阿里巴巴招募实习生的一次笔试题，从笔试题的几个要求我们一同来看看数据剖析的职业要求。一、异样值是指什么？请列举 1 种辨别连续型变量异样值的方法？异样值（Outlier ）是指样本中的个别值，其数值显然偏离所属样本的其余观察值。在数理统计里一般是指一组观察值中与均匀值的偏差超出两倍标准差的测定值。 Grubbs’ test （是以 Frank E. Grubbs 命名的），又叫 maximumnormed residual test ，是一种用于单变量数据集异样值识其余统计检测，它假设数据集来自正态散布的整体。未知整体标准差 σ，在五种查验法中，好坏序次为： t 查验法、格拉布斯查验法、峰度查验法、狄克逊查验法、偏度查验法。评论：观察的内容是统计学基础功底。二、什么是聚类剖析？聚类算法有哪几种？请选择一种详尽描绘其计算原理和步骤。聚类剖析 (cluster analysis) 是一组将研究对象分为相对同质的群组 (clusters) 的统计剖析技术。聚类剖析也叫分类剖析 (classification analysis) 或数值分 (numerical taxonomy) 。聚类与分类的不一样在于，聚类所要求区分的类是未知的。聚类剖析计算方法主要有：层次的方法（ hierarchical method ）、区分方法（ partitioning method ）、鉴于密度的方法（ density-based method ）、鉴于网格的方法（ grid-based method ）、鉴于模型的方法（ model-based method ）等。此中，前两种算法是利用统计学定义的距离进行胸怀。 k-means 算法的工作过程说明以下：第一从 n 个数据对象任意选择 k 个对象作为初始聚类中心；而关于所剩下其余对象，则依据它们与这些聚类中心的相像度（距离），分别将它们分派给与其最相像的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中全部对象的均值）；不停重复这一过程直到标准测度函数开始收敛为止。一般都采纳均方差 ( 标准差 ) 作为标准测度函数 . k 个聚类拥有以下特色：各聚类自己尽可能的紧凑，而各聚类之间尽可能的分开。其流程以下： 1）从 n 个数据对象任意选择 k 个对象作为初始聚类中心； 2）依据每个聚类对象的均值（中心对象），计算每个对象与这些中心对象的距离；并依据最小距离从头对相应付象进行区分； 3）从头计算每个（有变化）聚类的均值（中心对象）； 4）循环（ 2）、（3）直到每个聚类不再发生变化为止（标准丈量函数收敛）。长处：本算法确立的 K 个区分抵达平方偏差最小。当聚类是密集的，且类与类之间差别显然时，成效较好。关于办理大数据集，这个算法是相对可伸缩和高效的，计算的复杂度为 O(NKt) ，此中 N 是数据对象的数目， t 是迭代的次数。一般来说， KN， tN 。弊端： 1. K 是预先给定的，但特别难以选定； 2. 初始聚类中心的选择对聚类结果有较大的影响。评论：观察的内容是常用数据剖析方法，做数据剖析必定要理解数据剖析算法、应用处景、使用过程、以及优弊端。三、依据要求写出 SQL 表 A 结构以下： Member_ID（用户的 ID，字符型） Log_time （用户接见页面时间，日期型（只有一天的数据）） URL（接见的页面地点，字符型）要求：提拿出每个用户接见的第一个 URL（准时间最早），形成一个新表（新表名为 B，表结构和表 A 一致） createtable B asselectMember_ID, min(Log_time), URL from Agroup byMember_ID ; 评论： SQL语句，简单的数据获得能力，包含表查问、关系、汇总、函数等。四、销售数据剖析以下是一家 B2C电子商务网站的一周销售数据，该网站主要用户群是办公室女性，销售额主要集中在 5 种产品上，假如你是这家企业的剖析师，从数据中，你看到了什么问题？你感觉背后的原由是什么？假如你的老板要求你提出一个营运改良计划，你会怎么做？表以下：一组每日某网站的销售数据从这一周的数据能够看出，周末的销售额显然偏低。这此中的原由，能够从两个角度来看：站在花费者的角度，周末可能不用上班，因此也没有购置该产品的欲念；站在产品的角度来看，该产品不可以在周末的时候惹起花费者足够的注意力。针对该问题背后的双方面原由，