数据分析方法——以关联分析为例.pptxVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据分析方法——以关联分析为例

目录大数据是什么大数据分析五个方面关联分析

大数据指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内到达截取、管理、处理、并整理成为人类所能解读的信息。截至2012年,单一数据集的大小从数兆字节〔TB〕至数十兆亿字节〔PB〕不等。经济的开发成长促进了密集数据科技的使用。全世界共有约46亿的移动用户,并有10至20亿人链接互联网。自1990年起至2005年间,全世界有超过10亿人进入中产阶级,收入的增加造成了识字率的提升,更进而带动信息量的成长。全世界通过电信网络交换信息的容量在1986年为281兆亿字节〔PB〕,1993年为471兆字节,2000年时增长为2.2艾字节〔EB〕,在2007年那么为65艾字节。根据预测,在2013年互联网每年的信息流量将会到达667艾字节。1.——Wikipedia

大数据2.2011年,新生成的和复制的信息量估计超过了1.8ZB〔泽字节〕;而在2013年,这一数字估计可达4ZB.1ZB=1024EB=1024*1024PB=1024*1024*1024TBZB与TB相差的数量级等于TB与KB之间相差的数量级.

大数据应用的威力3.医疗保险和医疗补助效劳中心已经开始在要求支付前用预测分析软件来标示看似报销欺诈的凭据。欺诈预防系统有助于实时甄别高风险医疗保健提供者的欺诈、浪费与滥用行为,它已经终止、阻止或确认了1.15亿美元的欺诈性支付,在该程序上头一年花的每1美元带来了3美元的本钱节约。在阿富汗战争最剧烈的那几年,美国国防高级研究方案局派遣了数据科学家团队和可视化技术团队到战地。在一个名为Nexus7的方案中,这些团队被直接派进作战部队,用他们的工具帮助指挥官解决特定的作战方案。在其中一个地区,Nexus7的工程师将卫星数据和监测仪数据融合,观察交通工具是如何在道路网中流动,这使其更容易定位并摧毁简易爆炸装置。 -------白宫2014“大数据”白皮书

大数据分析五个方面4.1.预测性分析能力?数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。?2.数据质量和数据管理?数据质量和数据管理是一些管理方面的最正确实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。?3.可视化分析?不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最根本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。?4.语义引擎?我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。??5.数据挖掘算法?可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。?

关联分析关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于工程集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品〔项〕之间的联系。5.

关联分析关联分析研究的关系有两种:简单关联关系和序列关联关系。简单关联关系购置面包的顾客中80%会购置牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的,二者没有共同属性,但是二者搭配后就是一顿美味早餐。商场购置时,如果你把这两样摆在一起时,就会刺激顾客的潜意识联系了二者的关系,并刺激购置。这是一种简单的关联关系。6.

关联分析序列关联关系比方买了iphone的顾客中80%会选择购置iphone保护壳,这就是序列关联关系,一般没人先去买个保护壳再去买。这是存在先后的时间上的顺序的。7.关联分析研究的关系有两种:简单关联关系和序列关联关系。

关联分析8.关联算法的三个概念1.支持度〔Support〕就是数据集中包含某几个特定项的概率。比方在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。2.置信度〔Confidence〕就是在数据集中已经出现A时,B发生的概率,置信度的计算公式是:A与B同时出现的概率/A出现的概率。3.提高度(Lift,也称兴趣度)即商品之间的亲密关系。当提高度指标大于1时,说明商品之间可能具有真正的关联关系。提高度数据越大,那么商品之间的关联意义越大。如果提高度小于1.0时,说明商品之间不可能具有真正的关联关系。在某些情况下,提高度会出现负值,此时商品之间很有可能具有相互排斥的关系,表达在

文档评论(0)

199****4744 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7002121022000045

1亿VIP精品文档

相关文档