大数据应用基础-分类算法115.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据应用基础-分类算法115大数据应用基础-分类算法115

分类算法 大数据应用基础 魏炜 1 大数据复习 2 大数据的核心是什么 大数据人才可以分为分析人才和架构人才。 其中,需求量最大的是分析人才。 而分析的核心是数据挖掘。 大数据目前的发展重点是怎么对非结构化数据进行数据挖掘。 物联网、智能手机、可穿戴、智能硬件等技术设备将正在让数据成几何倍数增长。 3 大数据的核心——非结构化数据 结构化数据的分析相对比较成熟,比如Excel、关系型数据库、数据仓库的OLAP在企业中已经无人不知。 对于非结构化数据,难点在于: 数据收集与集成:设法通过各种设备收集数据,并把各种数据来源集成起来。例如,围绕一个人,怎样能从公司内部和外部的各种渠道,收集他多方面的数据,把其中的非结构化数据转化成结构化数据,然后把各种数据集成起来,从而用一个特征向量来表示他的特征。 数据分析:怎样分析这种高维度的数据。非结构化数据的维度是无止境的,比如百度能分析几十亿维的特征。 4 大数据架构技术的核心 主要有两种计算: 离线分布式计算 这种计算能处理海量数据,并运行复杂的算法,其中包括数据挖掘算法、非结构化数据特征的提取(例如搜索引擎索引的编制)、推荐算法等。 它能充分发挥分布式计算的优点,但是完成所需计算的耗时可能是几分钟、几小时或更长时间,因此有时还需要用在线计算加以补充。 主要的开源技术是Hadoop。这也是最热门的大数据架构技术。 很多算法都有其适合于在Hadoop平台上进行分布式运行的版本。大数据分析人员应能掌握常见算法的分布式版本。 在线分布式计算 可以把一些简单的计算以极快的速度完成。例如,搜索引擎的反应时间、广告交易平台的更新时间都在0.1秒以内。 相关开源技术有Storm、Kafka等。商用方案有IBM的流计算等。 5 大数据架构技术的核心 此外,还有一种重要技术,叫内存计算。 原理是:在内存里计算比在硬盘里计算快得多。 这种技术使用的前提就是内存足够大。商用方案有SAP Hana等。 它可以和分布式计算结合。例如,开源平台Spark就采取这种思路。 6 大数据技术中的算法 大数据技术中的算法不只是数据挖掘。 除了数据挖掘,典型的计算任务还有: 搜索引擎中的文本特征提取,即相对词频计算 推荐系统中的用户间相似度计算、物品间相似度计算等 不过,数据挖掘无疑是最重要的一大类算法。 7 数据挖掘的概念辨析 和统计相比,数据挖掘倾向于处理大规模数据,并且其宗旨是减少人工操作。而统计往往有赖于分析人员手工操作。在统计之前,常常对变量间的关系做假设;而数据挖掘的重点在于预测的结果,不一定追究预测的依据。 数据挖掘和人工智能、机器学习的重合度非常高。不过,早先的人工智能侧重于由人工设定规则,而当今越来越重视从数据中自动获得知识、 对于非结构化数据的挖掘,通常需要把非结构化数据转化成结构化的形式,然后再采用数据挖掘算法。 数据挖掘不只是要重视算法,提高数据质量、理解应用领域也是不可或缺的。 8 数据挖掘的基本流程 9 数据挖掘算法分类 有监督学习:分类与回归 有标识。 通过模仿做出正确分类的已有数据,从而能够对新的数据做出比较准确的分类。这就像教小孩学习一样。 无监督学习:聚类、关联规则 无标识 聚类:针对客户特征进行客户群划分。由此,我们可以对不同客户群采取差异化的促销方式。 关联规则:分析发现购买面包的顾客中有很大比例的人同时购买牛奶。由此,我们可以把面包和牛奶摆在同一个货架上。 此外,降维方法经常服务于数据挖掘算法 它把特征维度降低,从而使运算更快。 10 数据挖掘算法分类 此处观看案例视频 11 高度重视以下同义词 以下术语大致是同一个意思: 表格中的行:个案=实例=记录=样本点=数据点 表格中的列:属性=特征=字段=维度=预测变量=自变量 12 数据准备的重要性 没有高质量的数据,就没有高质量的挖掘结果。 数据准备工作占用的时间往往在60%以上! 13 分类模型的评价 模型算法质量的评价是很重要的一部分。对分类模型和聚类模型的评价方法是不同的。 对于分类模型,通常用一些指标来进行模型评价和选择。通常采用的指标有: ROC曲线、Lift曲线。其本质都是与预测的准确性有关的。 分类模型评价的主要宗旨就是:减少误判(假阳性)和漏判(假阴性)。 我们可以对不同的分类算法,设置不同的参数,进行反复比较,根据在多个效果指标(比如ROC曲线的AUC值、Lift曲线)上是否有稳定的好的表现,选择一个最终落地应用的模型。 14 分类的步骤——数据集的划分 把过去的数据分成两份,其中一份当做训练集,另一份当做测试集(用来模拟“未来的”数据)。通常,我们会将大多数数据作为训练集(比如80%),而少数数据作为测试集。 历史数据中每行都要有输入数据(输入变量值)和输出数据(目标变量值)。 15 分类的步骤——模型的训练与使用

文档评论(0)

ganqludp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档