统计分析与数据挖掘.pptxVIP

下载本文档

6
0
约1.72千字
约 20页
2018-01-19 发布于江苏
举报
版权申诉

统计分析与数据挖掘.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计分析与数据挖掘

统计分析与数据挖掘什么是数据挖掘？数据挖掘的目的 “淘金” 数据挖掘应用分类统计分析与数据挖掘的关系统计分析与数据挖掘的关系抽样的魅力如果你希望了解持某种看法的民众在总人口中的比例，只要按照被普遍接受的抽样办法从几百万成年人中选出1500人作为样本，依据这些样本所获得的比例与实际比例的误差可以控制在3%。更令人不可思议的是，这个误差只依赖样本个数，和总体的大小无关，也就是说，如果将这个总体扩大到100亿个个体，那么1500个个体组成的样本调查结果和实际值的误差同样在3%以内。 ——《让数据告诉你》 PCA在市场研究中的应用案例：某食品生产商预对常用50种食品的生产进行经营决策，对785名消费者的食品嗜好程度进行调查，要求每个消费者对50种食品进行评价，按对食品的喜好程度在1-9分内评分。分析过程：将被调查者按性别与年龄分成10组，1—5组表示男性，6—10组表示女性，且1—5,6—10各组分别按年龄从小到大排序。然后计算各组对每种食品评分的平均值，即得到含有10个变量的样本观测数据。食品组号 1 2 3 4 5 6 7 8 9 10 1 7.8 5.4 3.9 3.5 3.0 8.1 6.0 5.4 3.8 2.5 2 1.6 2.8 4.4 4.0 3.5 6.2 7.2 7.5 7.0 9.0 … … …… … 50 3.1 2.8 3.3 3.0 2.5 3.9 3.5 3.0 2.8 3.0 PCA在市场研究中的应用对样本观测数据矩阵标准化，计算相关系数矩阵（这里是10个变量即为10阶），求出特征值及相应的特征向量，得到10个主成分，根据贡献率大小实际中一般选取前面几个影响较大的 PCA在市场研究中的应用男性女性 … … 聚类分析概念：将大量对象和描述对象的众多属性分成由类似的对象组成的多个类的过程依据的原则：“物以类聚” 与分类的区别：进行聚类前并不知道将要划分成几个组和什么样的组，也不知道根据哪些空间区分规则来定义组目的：发现空间实体的属性间的函数关系，如何在没有先验知识的前提下，实现满足这种要求的类的聚合聚类分析方法利用相似系数：性质越接近的对象，他们的相似系数越接近于1 (或-1)，而彼此无关的对象他们的相似系数则越接近于0，比较相似的对象归为一类，不怎么相似的对象属于不同的类利用空间距离：将每一个对象看作m维空间的一点，并在空间定义距离，距离较近的点归为一类，距离较远的点应属于不同的类聚类算法：划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法聚类在客户细分中的应用案例：中国移动客户细分分析过程：基于已有的海量客户数据，产生上百个描述客户的变量聚类在客户细分中的应用然后将客户群体通过聚类算法分成多个客户组。每个组的客户特性表现相对接近，组的个数非人为决定，而取决于客户总体内在的特性。聚类在客户细分中的应用分组结果：两种方法的比较主成分分析是一种线性降维方法，由于原数据的维度过高，可以通过一些投影变换，将高维数据投影到低维度中，然后再观察数据的特点，便于对数据进行进一步的观察和处理。适用于目标的降维处理。聚类相当于将一大群人按照他们的距离（这里的距离可能是他们的相似程度或者其他，越相似距离越短）进行分类，聚类分析可以获得数据的分类，但是这个分类不一定反映数据的真实模型。适用于目标分类。聚类时对样品之间的相似系数和距离的定义与指标(变量)的类型关系极大，通常指标按照测量它们的尺度来进行分类。主成分聚类适用于对样品的综合评价。数据挖掘中的其他统计方法回归广义线性模型方差分析混合效应模型因素分析判别式分析生存分析质量控制数据挖掘与标准统计分析的区分业务数据包含许多类别值且存在度量误差数据挖掘基于足够多的数据和强大处理能力数据挖掘对时间依赖性无处不在商业世界中的实验设计非常困难数据被删截结束语 “衡量成功唯一真正的标准是，我们可能会做什么和我们实际已经做了什么的比较，以及我们已经取得什么和我们自己为别人做出什么。” ——威尔斯