大数据走向云计算 (10).pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第10章 数据挖掘 数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性(属于Association rule learning)的信息的过程。 数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 10.1 数据挖掘概述 数据挖掘可以与用户或知识库交互。下图为典型数据挖掘系统结构图。 数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析,等等。 典型数据挖掘系统结构图 10.2 PageRank工具 Google的PageRank根据网站的外部链接和内部链接的数量和质量来衡量网站的价值。PageRank背后的概念是,每个到页面的链接都是对该页面的一次投票,被链接的越多,就意味着被其他网站投票越多。这个就是所谓的“链接流行度”——衡量多少人愿意将他们的网站和你的网站挂钩。 PageRank为一个函数,其对Web中(或者至少为抓取并发现其中链接关系的一部分Web网页)的每个网页赋予一个实数值。它的意图在于,网页的PageRank越高,那么它就越“重要”。并不存在一个固定的PageRank分配算法,实际上,一些基本的方法的变形能够改变任意两个网页的相对PageRank值。 10.3 关联分析 关联分析算法的基本原理支持度和置信度的意义在于,支持度是一个重要的度量,如果支持度很低,代表这个规则其实只是偶然出现,基本没有意义。因此,支持度通常用来删除那些无意义的规则。而置信度则是通过规则进行推理具有可靠性。 通常我们在做关联规则发现的时候都会设定支持度和置信度阈值 minsup 和minconf ,而关联规则发现则是发现那些支持度大于等于minsup 并且置信度大于 minconf的所有规则。所以,通过上面的概念,我们可以很自然地想到,关联分析的基本算法: (1)找到满足最小支持度阈值的所有项集,我们称之为频繁项集。(例如频繁二项集,频繁三项集) (2)从频繁项集中找到满足最小置信度的所有规则。 10.4 聚类分析 聚类分析用于从数据集中找出相似的数据并组成不同的组。与预测模型不同,聚类中没有明显的目标变量作为数据的属性存在。聚类算法通过检测数据判断“隐藏属性”。 聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 10.5分类分析 预测模型以通过数据库中的某些数据得到另外的数据为目标。如果预测的变量为离散的,这类问题称为分类。 10.5.1 决策树法 什么是决策树法?决策树一般都是自上而下的来生成的。每个决策或事件(即自然状态)都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树。 10.5.2 神经网络 人工神经网络(Artificial Neural Networks,简写为ANNs)也简称为神经网络(NNs)或称作连接模型(Connection Model),它是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。 10.6 异常挖掘 有关异常的定义说法很多。例如,Hawkins(1980年)给出异常的本质性定义:异常即是在数据采集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不同于的机制。 异常挖掘有着广泛的应用。例如,进行异常挖掘,在电信业中可以探测不寻常的信用卡使用或电信服务;在市场分析中可以用于确定极低或极高收入的客户的消费行为;在医疗业中可以用于发现对多种治疗方式的不寻常的反应。此外,异常挖掘还可应用于贷款审批、气象预报、网络入侵挖掘等领域。 10.7 特异群组分析 在实际中,还有一类挖掘任务是发现数据集当中明显不同于大部分数据对象(不具有相似性)的数据对象,其在问题定义、算法设计和应用效果都不同于聚类和异常挖掘,不能由现有的聚类、异常等数据挖掘技术实现,是一种新的数据挖掘任务,称其为特异群组挖掘。 特异群

文档评论(0)

132****9295 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档