基于云计算大数据挖掘平台.doc

下载文档 降价啦

0
0
约1.19万字
约 19页
2017-11-14 发布于福建
举报
版权申诉
保障服务

基于云计算大数据挖掘平台.doc

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于云计算大数据挖掘平台

基于云计算大数据挖掘平台　　摘要：开发了一个基于云计算的并行分布式大数据挖掘平台——PDMiner。PDMiner实现了各种并行数据挖掘算法，如数据预处理、关联规则分析以及分类、聚类等算法。实验结果表明，并行分布式数据挖掘平台PDMiner中实现的并行算法，能够处理大规模数据集，达到太字节级；具有很好的加速比性能；实现的并行算法可以在商用机器构建的并行平台上稳定运行，整合了已有的计算资源，提高了计算资源的利用效率；可以有效地应用到实际海量数据挖掘中。在PDMiner中还开发了工作流子系统，提供友好统一的接口界面方便用户定义数据挖掘任务。关键词：云计算；分布式并行数据挖掘；海量数据 Abstract： In this paper， we develop a parallel and distributed data mining toolkit platform called PDMiner. This platform is based on cloud computing. PDMiner is used to preprocess data， analyze association rules， and parallel classification and clustering. Our experimental results show that the parallel algorithms in PDMiner can tackle data sets up to one terabyte. They are very efficient because they have good speedup， and they are easily extended so that they can be executed in a cluster of commodity machines. This means that full use is made of computing resources. The algorithms are also efficient for practical data mining. We also develop a knowledge flow subsystem that helps the user define a data mining task in PDMiner. Key words： cloud computing； parallel and distributed data mining； big data 中图分类号：TN915.03； TP393.03 文献标志码：A 文章编号：1009-6868 （2013） 04-0032-007 随着物联网、移动通信、移动互联网和数据自动采集技术的飞速发展以及在各行各业的广泛应用，人类社会所拥有的数据面临着前所未有的爆炸式增长。美国互联网数据中心指出，互联网上的数据每年以50%的速度增长，每两年翻一番，而目前世界上90%以上的数据是最近几年才产生的，人类社会进入了“大数据”时代。因此，信息的获取非常重要，一定程度上，信息的拥有量已经成为决定和制约社会发展的重要因素。数据挖掘作为信息获取的一门重要技术，得到了广泛的研究。数据挖掘[1]从大量的数据中挖掘出有用的信息，提供给决策者做决策支持，有着广阔的应用前景。由于要挖掘的信息源中的数据都是海量的，而且以指数级增长，传统的集中式串行数据挖掘方法不再是一种适当的信息获取方式。因此扩展数据挖掘算法处理大规模数据的能力，并提高运行速度和执行效率，已经成了一个不可忽视的问题。为了解决海量数据的挖掘问题，一种简单的方式就是把所有的数据划分成若干份，也就是切分成若干个子任务，然后分布到各个计算资源上去进行计算，每个节点完成一个子任务，最后进行集成。分布式计算就是把一个计算问题分解成多个子问题并同时处理的计算模型。基于分布式计算模型，Luo等人[2-4]集成了很多数据挖掘算法到多主体系统。另外一种提高计算效率的方式是并行计算，并行计算也是把一个大的计算问题分割成小任务的形式。近年来，并行计算的体系结构和模型也引起了广泛的兴趣和研究[5-6]。尽管分布式计算和并行计算有很相似的特点，但是它们之间各有侧重，分布式计算强调在所有异构计算资源上同时求解问题，而并行计算则更加强调同一台计算资源内部多线程并行。这两种计算方式可以对应到算法之间的并行以及算法内部并行这两种计算模式。文献[2-4]提出基于主体技术的算法之间并行的计算模式，他们利用主体技术中主体本身的自主性、智能性等特点，实现不同算法主体之间的并行计算，以消息传递的方式实现同步