大数据应用基础-分类算法115.pptVIP

下载本文档

9
0
约1.33万字
约 115页
2017-04-10 发布于贵州
举报
版权申诉

大数据应用基础-分类算法115.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大数据应用基础-分类算法115大数据应用基础-分类算法115

分类算法大数据应用基础魏炜 1 大数据复习 2 大数据的核心是什么大数据人才可以分为分析人才和架构人才。其中，需求量最大的是分析人才。而分析的核心是数据挖掘。大数据目前的发展重点是怎么对非结构化数据进行数据挖掘。物联网、智能手机、可穿戴、智能硬件等技术设备将正在让数据成几何倍数增长。 3 大数据的核心——非结构化数据结构化数据的分析相对比较成熟，比如Excel、关系型数据库、数据仓库的OLAP在企业中已经无人不知。对于非结构化数据，难点在于：数据收集与集成：设法通过各种设备收集数据，并把各种数据来源集成起来。例如，围绕一个人，怎样能从公司内部和外部的各种渠道，收集他多方面的数据，把其中的非结构化数据转化成结构化数据，然后把各种数据集成起来，从而用一个特征向量来表示他的特征。数据分析：怎样分析这种高维度的数据。非结构化数据的维度是无止境的，比如百度能分析几十亿维的特征。 4 大数据架构技术的核心主要有两种计算：离线分布式计算这种计算能处理海量数据，并运行复杂的算法，其中包括数据挖掘算法、非结构化数据特征的提取（例如搜索引擎索引的编制）、推荐算法等。它能充分发挥分布式计算的优点，但是完成所需计算的耗时可能是几分钟、几小时或更长时间，因此有时还需要用在线计算加以补充。主要的开源技术是Hadoop。这也是最热门的大数据架构技术。很多算法都有其适合于在Hadoop平台上进行分布式运行的版本。大数据分析人员应能掌握常见算法的分布式版本。在线分布式计算可以把一些简单的计算以极快的速度完成。例如，搜索引擎的反应时间、广告交易平台的更新时间都在0.1秒以内。相关开源技术有Storm、Kafka等。商用方案有IBM的流计算等。 5 大数据架构技术的核心此外，还有一种重要技术，叫内存计算。原理是：在内存里计算比在硬盘里计算快得多。这种技术使用的前提就是内存足够大。商用方案有SAP Hana等。它可以和分布式计算结合。例如，开源平台Spark就采取这种思路。 6 大数据技术中的算法大数据技术中的算法不只是数据挖掘。除了数据挖掘，典型的计算任务还有：搜索引擎中的文本特征提取，即相对词频计算推荐系统中的用户间相似度计算、物品间相似度计算等不过，数据挖掘无疑是最重要的一大类算法。 7 数据挖掘的概念辨析和统计相比，数据挖掘倾向于处理大规模数据，并且其宗旨是减少人工操作。而统计往往有赖于分析人员手工操作。在统计之前，常常对变量间的关系做假设；而数据挖掘的重点在于预测的结果，不一定追究预测的依据。数据挖掘和人工智能、机器学习的重合度非常高。不过，早先的人工智能侧重于由人工设定规则，而当今越来越重视从数据中自动获得知识、对于非结构化数据的挖掘，通常需要把非结构化数据转化成结构化的形式，然后再采用数据挖掘算法。数据挖掘不只是要重视算法，提高数据质量、理解应用领域也是不可或缺的。 8 数据挖掘的基本流程 9 数据挖掘算法分类有监督学习：分类与回归有标识。通过模仿做出正确分类的已有数据，从而能够对新的数据做出比较准确的分类。这就像教小孩学习一样。无监督学习：聚类、关联规则无标识聚类：针对客户特征进行客户群划分。由此，我们可以对不同客户群采取差异化的促销方式。关联规则：分析发现购买面包的顾客中有很大比例的人同时购买牛奶。由此，我们可以把面包和牛奶摆在同一个货架上。此外，降维方法经常服务于数据挖掘算法它把特征维度降低，从而使运算更快。 10 数据挖掘算法分类此处观看案例视频 11 高度重视以下同义词以下术语大致是同一个意思：表格中的行：个案=实例=记录=样本点=数据点表格中的列：属性=特征=字段=维度=预测变量=自变量 12 数据准备的重要性没有高质量的数据，就没有高质量的挖掘结果。数据准备工作占用的时间往往在60%以上！ 13 分类模型的评价模型算法质量的评价是很重要的一部分。对分类模型和聚类模型的评价方法是不同的。对于分类模型，通常用一些指标来进行模型评价和选择。通常采用的指标有： ROC曲线、Lift曲线。其本质都是与预测的准确性有关的。分类模型评价的主要宗旨就是：减少误判（假阳性）和漏判（假阴性）。我们可以对不同的分类算法，设置不同的参数，进行反复比较，根据在多个效果指标（比如ROC曲线的AUC值、Lift曲线）上是否有稳定的好的表现，选择一个最终落地应用的模型。 14 分类的步骤——数据集的划分把过去的数据分成两份，其中一份当做训练集，另一份当做测试集（用来模拟“未来的”数据）。通常，我们会将大多数数据作为训练集（比如80%），而少数数据作为测试集。历史数据中每行都要有输入数据（输入变量值）和输出数据（目标变量值）。 15 分类的步骤——模型的训练与使用