- 2
- 0
- 约1.18万字
- 约 20页
- 2017-05-25 发布于湖北
- 举报
【干货】Alibaba数据分析师(实习)试题解析
一、异常值是指什么?请列举1种识别连续型变量异常值的方法?
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。在数理统计里一般是指一组观测值中与平均值的偏差超过两倍标准差的测定值。Grubbs’ test(是以Frank E.Grubbs命名的),又叫maximumnormed residual test,是一种用于单变量数据集异常值识别的统计检测,它假定数据集来自正态分布的总体。未知总体标准差σ,在五种检验法中,优劣次序为:t检验法、格拉布斯检验法、峰度检验法、狄克逊检验法、偏度检验法。
二、什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和步骤。
聚类分析(clusteranalysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类与分??的不同在于,聚类所要求划分的类是未知的。聚类分析计算方法主要有: 层次的方法(hierarchical method)、划分方法(partitioning method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)等。其中,前两种算法是利用统计学定义的距离进行度量。k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其流程如下:(1)从 n个数据对象任意选择 k 个对象作为初始聚类中心; (2)根据每个聚类对象的均值(中心对象),计算每个对象与这些中心对象的距离;并根据最小距离重新对相应对象进行划分; (3)重新计算每个(有变化)聚类的均值(中心对象);(4)循环(2)、(3)直到每个聚类不再发生变化为止(标准测量函数收敛)。优 点:本算法确定的K 个划分到达平方误差最小。当聚类是密集的,且类与类之间区别明显时,效果较好。对于处理大数据集,这个算法是相对可伸缩和高效的,计算的复杂度为 O(NKt),其中N是数据对象的数目,t是迭代的次数。一般来说,KN,tN 。缺点:1. K 是事先给定的,但非常难以选定;2. 初始聚类中心的选择对聚类结果有较大的影响。
三、根据要求写出SQL表A结构如下:Member_ID (用户的ID,字符型)Log_time (用户访问页面时间,日期型(只有一天的数据))URL (访问的页面地址,字符型)要求:提取出每个用户访问的第一个URL(按时间最早),形成一个新表(新表名为B,表结构和表A一致)
create table B as select Member_ID,min(Log_time), URL from A group by Member_ID ;
四、销售数据分析以下是一家B2C电子商务网站的一周销售数据,该网站主要用户群是办公室女性,销售额主要集中在5种产品上,如果你是这家公司的分析师,a) 从数据中,你看到了什么问题?你觉得背后的原因是什么?b) 如果你的老板要求你提出一个运营改进计划,你会怎么做?表如下:一组每天某网站的销售数据
a) 从这一周的数据可以看出,周末的销售额明显偏低。这其中的原因,可以从两个角度来看:站在消费者的角度,周末可能不用上班,因而也没有购买该产品的欲望;站在产品的角度来看,该产品不能在周末的时候引起消费者足够的注意力。b) 针对该问题背后的两方面原因,我的运营改进计划也分两方面:一是,针对消费者周末没有购买欲望的心理,进行引导提醒消费者周末就应该准备好该产品;二是,通过该产品的一些类似于打折促销等活动来提升该产品在周末的人气和购买力。
五、用户调研某公司针对A、B、C三类客户,提出了一种统一的改进计划,用于提升客户的周消费次数,需要你来制定一个事前试验方案,来支持决策,请你思考下列问题:a) 试验需要为决策提供什么样的信息?c) 按照上述目的,请写出你的数据抽样方法、需要采集的数据指标项,以及你选择的统计方法。
a) 试验要能证明该改进计划能显著提升A、B、C三类客户的周消费次数。
b) 根据三类客户的数量,采用分层比例抽
您可能关注的文档
- K5+421分离桥吊装方案探索.doc
- K8+307.848盖梁首件工程开工探索.doc
- 【步步高】(江苏专用)2017版高考数学一轮复习第八章立体几何8.3直线、平面平行的判定与性质理探索.doc
- 【步步高】2015届高考生物一轮复习单元排查过三关(八)苏教版探索.doc
- K50-50塔式起重机使用说明书-安装手册探索.doc
- 【步步高】2016高考数学大一轮复习1.1集合的概念与运算教师用书理苏教版探索.doc
- 【步步高】2017版高考地理大一轮复习第4章第12讲自然地理要素变化与环境变迁讲义探索.doc
- K-90B联机热泵控制板规格书探索.doc
- 【成才之路】2014-2015学年高中语文(人教版)必修2课时练:第11课就任北京大学校长之演说]探索.doc
- DCOS监控模块设计探索.doc
最近下载
- 新高考数学一轮复习讲义 第20讲 三角函数的图像与性质(原卷版).doc VIP
- (一模)长沙市2025年新高考适应性考试地理试卷(含答案详解).pdf
- 防护棚搭设施工方案.pdf VIP
- 空调通风水力计算表.xls VIP
- 一年级无纸化数学方案.pptx VIP
- 2025年中考语文总复习第二部分文学之约专题三语言综合运用(核心考点突破).pptx VIP
- 心包穿刺技术操作规程.pdf VIP
- 洪都中学信和QC小组-提高叠合板与现浇板带一次成型合格率.doc
- 天津市部分区2024-2025学年八年级上学期期末数学试卷[含答案] .pdf VIP
- 【市质检】泉州市2025届高中毕业班质量监测(二) 数学试卷(含答案).pdf
原创力文档

文档评论(0)