《数据挖掘》课件 第7章 常用大数据挖掘算法优化改进.pdfVIP

《数据挖掘》课件 第7章 常用大数据挖掘算法优化改进.pdf

  1. 1、本文档共50页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘 高级大数据人才培养丛书之一,大数据挖掘技术与应用 第七章常用大数据挖掘算法优化改进 随着 〃信息爆炸 〃时代的来临,数据挖掘的应用日趋广泛。许多商业决策者利用数据 挖掘技术从海量的数据中获取有用的信息,为以后企业更好地决策提供 帮助。然而,传 统的数据挖掘算法在面对海量数据的时候,由于各种原因,执行效率低下,已经不能够 满足人们日益增长的性能需求,需 寻找更加高效的算法或者执行策略。为了解决这一 系列效率低下的问题,本章对常用大数据挖掘算法进行优化和改进,并将改进后的算法 应用到具体的实例中。 高级大数据人才培养丛书之一,大数据挖掘技术与应用 第七章常用大数据挖掘算法优化改进 7.1 分类算法 7.2 聚类算法 7.3 关联规则 习题 )7.1分类算法 第7章常用大数据挖掘算法优化改进 所谓分类,简单 来说,就是根据数据的特征或属性,划分到已有的类别中。 7.1.1 分类算法的并行化 1 .并行算法简介 简单的说,算法就是求解问题的方法和步骤。并行算法,就是在并行机上用很多个 处理器联合求解问题的方法和步骤。 2 .并行算法的常规研究内容 1)并行计算模型 并行计算模型的第一代是共享存储模型,如SIMD-SM和MIMD-SM的一些计算模型, 模型参数主 是CPU的单位计算时间。第二代是分布存储模型。在这个阶段,人们逐渐 意识到对并行计算机性能带来影响的不仅仅是CPU ,还有通信。第三代是分布共享存储 模型。 )7.1分类算法 第7章常用大数据挖掘算法优化改进 简单的说,算法就是求解问题的方法和步骤。并行算法,就是在并行机上用很多个 处理器联合求解问题的方法和步骤。 2)并行算法的设计技术 虽然并行算法研究还不是太成熟,但并行算法的设计依然是有章可循的,例如划分 法、分治法、平衡树法、倍增法等都是常用的设计并行算法的方法。另外人们还可以根 据问题的特性来选择适合的设计方法。 3)并行算法分为多机并行和多线程并行 多机并行,如MPI技术;多线程并行,如OpenMP技术。 InfiniBand 并行文件系统 )7.1分类算法 第7章常用大数据挖掘算法优化改进 3 .并行计算和并行算法 1)并行计算 从处理器的角度看,并行计算可划分为时间并行和空间并行,时间并行即流水线技 术,空间并行则是使用多个处理器同时计算。从算法设计的角度来看,并行计算可分为 数据并行和任务并行。 从体系结构来说,空间并行导致两类并行机的产生:单指令流多数据流(SIMD )和 多指令流多数据流(MIMD )。MIMD类的机器又可分为常见的五类:并行矢量处理机 (PVP )、对称多处理机(SMP )、大规模并行处理机(MPP )、工作站集群(COW ) 和分布式共享存储处理机(DSM )。 从访存模型来说,并行计算有以下5种访存模型:均匀访存模型(UMA )、非均匀 访存模型(NUMA )、全高速缓存访存模型(COMA )、一致性高速缓存非均匀存储 访问模型(CC-NUMA )和非远程存储访问模型(NORMA ) o 2 )并行算法 并行算法是用多台处理机联合求解问题的方法和步骤,其执行过程是将给定问题先 分解成若干个尽量相互独立的子问题,然后使用多台计算机同时进行求解,从而最终求 得原问题的解。 )7.1分类算法 第7章常用大数据挖

文档评论(0)

xf118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档