第8章大数据浅析.pptVIP

下载本文档

11
0
约1.61万字
约 73页
2017-04-25 发布于湖北
举报
版权申诉

第8章大数据浅析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据分析 ;目录;8.1 大数据概述;8.1.1 大数据的特点数据分析需要从纷繁复杂的数据中发现规律并提取新的知识，是大数据价值挖掘的关键。经过数据的计算和处理后，所得的数据便成为数据分析的原始数据，根据所需数据的应用需求对数据进行进一步的处理和分析，最终找到数据内部隐藏的规律或者知识，从而体现数据的真正价值。大数据的特点包括：数据体量巨大流动速度快数据种类繁多价值密度低;8.1.2 大数据的传统处理方法统计分析是运用统计方法及与分析对象有关的知识，从定量与定性的结合上进行的研究活动。统计分析是继统计设计、统计调查、统计整理之后，通过分析从而达到对研究对象更为深刻的认识。统计分析是在一定的选题下，集分析方案的设计、资料的搜集和整理而展开的研究活动。系统、完善的资料是统计分析的必要条件。统计分析可以分为5个步骤：描述要分析的数据的性质。研究基础群体的数据关系。创建一个模型，总结数据与基础群体的联系。证明（或否定）该模型的有效性。采用预测分析来预测将来的趋势。 ;8.1.3 大数据分析的机器学习方法聚类分析聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（Subset），这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。结构性聚类：利用以前成功使用过的聚类器进行分类结构性算法可以从上至下或者从下至上双向进行计算。从下至上算法从每个对象作为单独分类开始，不断融合其中相近的对象。而从上至下算法则是把所有对象作为一个整体分类，然后逐渐分小。分割式聚类算法，是一次性确定要产生的类别。基于密度的聚类算法，是为了挖掘有任意形状特性的类别而发明的。此算法把一个类别视为数据集中大于某阈值的一个区域。 ;分散性聚类：一次确定所有分类。K-means算法表示以空间中k个点为中心进行聚类，对最靠近他们的对象归类。算法归纳为: 选择聚类的个数k。任意产生k个聚类，然后确定聚类中心，或者直接生成k个中心。对每个点确定其聚类中心点。再计算其聚类新中心。重复以上步骤直到满足收敛要求 (通常就是确定的中心点不再改变)。该算法的最大优势在于简洁和快速。劣势在于对于一些结果并不能够满足需要，因为结果往往需要随机点的选择非常巧合。;神经网络神经网络是一种由大量的节点（或称“神经元”、“单元”）和之间相互联接构成的运算模型。每个节点代表一种特定的输出函数，称为激励函数（Activation Function）。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重（Weight），这相当于人工神经网络的记忆。网络的输出随着网络的连接方式、权重值和激励函数的不同而不同。神经网络是一个能够学习，能够总结归纳的系统，也就是说它能够通过已知数据的实验运用来学习和归纳总结。;人工神经网络通过对局部情况的对照比较（而这些比较是基于不同情况下的自动学习和解决实际问题的复杂性所决定的），它能够推理产生一个可以自动识别的系统。常见的多层结构的前馈网络（Multilayer Feedforward Network）由三部分组成：输入层（Input Layer），众多神经元（Neuron）接受大量非线形输入信息。输入的信息称为输入向量。输出层（Output Layer），信息在神经元链接中传输、分析、权衡，形成输出结果。输出的信息称为输出向量。隐藏层（Hidden Layer），简称“隐层”，是输入层和输出层之间众多神经元和链接组成的各个层面。隐层可以有多层，习惯上会用一层。隐层的节点（神经元）数目不定，习惯上会选输入节点1.2～1.5倍的节点。;决策树决策树（Decision Tree）由一个决策图和可能出现的结果（包括资源成本和风险）构成，用来创建到达目标的规划。决策树是一个利用像树一样的图形或决策模型进行决策支持的工具。决策树经常在运筹学中使用，特别是在决策分析中。决策树法的决策程序如下：绘制树状图，根据已知条件排列出各个方案和每一方案的各种自然状态。将各状态概率及损益值标于概率枝上。计算各个方案期望值并将其标于该方案对应的状态节点上。进行剪枝，比较各个方案的期望值，并标于方案枝上，将期望值小的（即劣等方案剪掉）所剩的最后方案为最佳方案。;相对于其他数据挖掘算法，决策树在以下几个方面拥有优势：决策树易于理解和实现，人们在通过解释后都有能力去理解决策树所表达的意义。对于决策树，数据的准备往往是简单或者是不必要的。其他的技术往往要求先把数据一般化，比如去掉多余的或者空白的属性。能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。决策树是一个白盒模型。如果给定一个观察的模型，那么根据所产生的决策树很容易