数据方法——以关联为例技术总结.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据分析方法——以关联分析为例 目录 大数据是什么 大数据分析五个方面 关联分析 大数据 指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。截至2012年,单一数据集的大小从数兆字节(TB)至数十兆亿字节(PB)不等。 经济的开发成长促进了密集数据科技的使用。全世界共有约46亿的移动电话用户,并有10至20亿人链接互联网。自1990年起至2005年间,全世界有超过10亿人进入中产阶级,收入的增加造成了识字率的提升,更进而带动信息量的成长。全世界通过电信网络交换信息的容量在1986年为281兆亿字节(PB),1993年为471兆字节,2000年时增长为2.2艾字节(EB),在2007年则为65艾字节。根据预测,在2013年互联网每年的信息流量将会达到667艾字节。 1. ——Wikipedia 大数据 2. 2011 年,新生成的和复制的信息量估计超过了 1.8 ZB(泽字节);而在 2013 年,这一数字估计可达 4 ZB. 1ZB =1024EB =1024*1024PB =1024*1024*1024TB ZB与TB相差的数量级等于TB与KB 之间相差的数量级. 大数据应用的威力 3. 医疗保险和医疗补助服务中心已经开始在要求支付前用预测分析软件来标示看似报销欺诈的凭据。欺诈预防系统有助于实时甄别高风险医疗保健提供者的欺诈、浪费与滥用行为,它已经终止、阻止或确认了 1.15 亿 美元的欺诈性支付,在该程序上头一年花的每 1 美元带来了 3 美元的成本节约。 在阿富汗战争最激烈的那几年,美国国防高级研究计划局派遣了数据科学家团队和可视化技术团队到战地。在一个名为 Nexus 7 的计划中,这些团队被直接派进作战部队,用他们的工具帮助指挥官解决特定的作战计划。在其中一个地区,Nexus 7 的工程师将卫星数据和监测仪数据融合, 观察交通工具是如何在道路网中流动,这使其更容易定位并摧毁简易爆炸装置。 -------白宫2014“大数据”白皮书 大数据分析五个方面 4. 1.预测性分析能力 ? 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。? 2.数据质量和数据管理 ? 数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。 ? 3.可视化分析 ? 不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。 ? 4.语义引擎 ? 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。 ?? 5.数据挖掘算法 ? 可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。? 关联分析 关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。或者说,关联分析是发现交易数据库中不同商品(项)之间的联系。 5. 关联分析 关联分析研究的关系有两种:简单关联关系和序列关联关系。 简单关联关系 购买面包的顾客中80%会购买牛奶。面包和牛奶作为一种早餐的搭配是大家所接受的,二者没有共同属性,但是二者搭配后就是一顿美味早餐。商场购买时,如果你把这两样摆在一起时,就会刺激顾客的潜意识联系了二者的关系,并刺激购买。这是一种简单的关联关系。 6. 关联分析 序列关联关系 比如买了iphone手机的顾客中80%会选择购买iphone手机保护壳,这就是序列关联关系,一般没人先去买个保护壳再去买手机。这是存在先后的时间上的顺序的。 7. 关联分析研究的关系有两种:简单关联关系和序列关联关系。 关联分析 8. 关联算法的三个概念 1.支持度(Support) 就是数据集中包含某几个特定项的概率。 比如在1000次的商品交易中同时出现了啤酒和尿布的次数是50次,那么此关联的支持度为5%。 2.置信度(Confidence) 就是在数据集中已经出现A时,B发生的概率,置信度的计算公式是 :A与B同时出现的概率/A出现的概率。 3.提高度(Lift,也称兴趣度) 即商品之间的亲密关系。当提高度指标大于1时,表明商品之间可能具有真正的关联关系。提高度数据越大,则商品之间的关联意义越大。如果提高度小于1.0时,表明商品之间不可能具有真正的关联关系

文档评论(0)

过各自的生活 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档