大数据分析算法.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据分析·原理与实践11、大数据分析算法大数据分析算法全文共29页,当前为第1页。目录概述关联规则挖掘算法分类算法聚类算法1234大数据分析算法全文共29页,当前为第2页。目录概述关联规则挖掘算法分类算法聚类算法1234大数据分析算法全文共29页,当前为第3页。概述大数据分析算法的分类按实时性的要求分类实时分析算法实时获取数据,响应时间要求为秒级甚至毫秒级。弱实时分析算法面向有用户参与的分析任务,响应时间要求为分钟到小时。非实时分析算法处理数据仓库中的大规模数据,响应时间比较宽松,可以达到天甚至月。大数据分析算法全文共29页,当前为第4页。概述应用实例实时分析算法一些分析任务必须实时处理在工业生产过程中,一些分析任务必须实时处理,例如生产线上的产品错误的实时发现和纠正、设备故障的实时监测和修理。获取实时数据这些任务需要使用生产线的实时数据,只有这样,使用的数据才能体现出产品或者设备的当前状态。大数据分析算法全文共29页,当前为第5页。概述应用实例弱实时分析算法与用户交互工业企业的一些分析任务需要和管理者交互完成,例如库存优化等。时间约束这些任务的实时性不强,但参与者不可能等太久。此外,太长时间也会导数数据的参考价值降低。大数据分析算法全文共29页,当前为第6页。概述应用实例红土镍矿全元素分解工艺流程图非实时分析算法长期决策一些工业大数据分析任务涉及长期决策,为了做出正确的决策,需要尽可能全面地使用大规模历史数据,例如工艺优化。准确性更为重要这些分析的结果对于企业的生产和经营有着较重要的影响,相对于计算时间,分析的准确性更加重要。大数据分析算法全文共29页,当前为第7页。概述大数据分析算法的设计技术随机算法什么是随机算法随机算法是使用了随机函数的算法,且随机函数的返回值直接或者简介地影响了算法的执行流程或执行结果。只分析少部分数据利用随机算法,我们可以用少部分数据的分析结果实现对整体数据分析结果的估计。大数据分析算法全文共29页,当前为第8页。概述大数据分析算法的设计技术外存算法什么是外存算法外存算法指的是在算法执行过程中用到外存的算法。为什么要使用外存在很多情况下,由于内存的限制,大数据必须存储在外存中。在一些情况下,大数据分析过程中的中间结果无法放到内存中,而必须使用外存。大数据分析算法全文共29页,当前为第9页。概述大数据分析算法的设计技术并行算法什么是并行算法并行算法是指用多台处理器联合求解问题的算法。MapReduce算法是比较典型的数据密集型并行算法。MapReduce体系结构大数据分析算法全文共29页,当前为第10页。概述大数据分析算法的设计技术Anytime算法什么是Anytime算法Anytime算法,也称“任意时间算法”。在Anytime算法结束前,终止其执行,我们也能得到一个合法的结果。这类算法跑的时间越久,返回的结果越准确。为什么需要Anytime算法由于大数据规模很大,计算资源和时间约束不足以对数据进行精确分析,这就需要根据结果质量要求调配资源或者根据资源自适应调整结果质量。如在线聚集算法。大数据分析算法全文共29页,当前为第11页。目录概述关联规则挖掘算法分类算法聚类算法1234大数据分析算法全文共29页,当前为第12页。关联规则挖掘算法频繁模式挖掘频繁模式挖掘频繁模式挖掘一个经典的案例是购物篮分析,分析顾客的购物习惯。比如,顾客购买了牛奶,有多大可能也购买面包?将二者放在一起,是否会增加二者的销量。在医疗方面,患者患有某种疾病后,患其他一些疾病的概率会增大。通过对疾病的频繁模式进行挖掘,有助于医生为患者设计治疗方案。频繁模式频繁模式时指频繁出现在数据集中的模式。大数据分析算法全文共29页,当前为第13页。关联规则挖掘算法Apriori算法要解决的问题问题寻找频繁项集,即满足给定的最小支持度的项集。支持度??→?? 在数据库??中支持度是??中事务同时包含??、??的百分比。如“A→C”的支持度为0.4。事务编号商品10A, C, D20B, C, E30A, B, C, E40B, E交易数据库D大数据分析算法全文共29页,当前为第14页。关联规则挖掘算法Apriori算法算法思想暴力搜索?一个简单的想法是使用枚举的出所有D中的子集,然后分别计算它们的支持度。但这计算量是极大的。Apriori的思想从小到大,逐层搜索。事务编号商品10A, C, D20B, C, E30A, B, C, E40B, E交易数据库D大数据分析算法全文共29页,当前为第15页。关联规则挖掘算法Apriori算法算法思想Apriori定律1如果一个集合是频繁项集,则它的所有子集都是频繁项集。例如,{B,C,E}的支持度为0.5,那么{B,C}的支持度必定大于等于0.5。Apriori定律2如果一个集合不是频繁项集,则它的

文档评论(0)

孙二娘 + 关注
实名认证
文档贡献者

专注文档领域

1亿VIP精品文档

相关文档