一种基于动态调度的数据挖掘并行算法.docVIP

下载本文档

6
0
约7.91千字
约 11页
2017-03-03 发布于北京
举报
版权申诉

一种基于动态调度的数据挖掘并行算法.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于动态调度的数据挖掘并行算法.doc

一种基于动态调度的数据挖掘并行算法　　摘要：相比其他分类算法，朴素贝叶斯算法最大的优点就是适合被并行化改造。由于单机分类算法不适应大规模数据的处理，而云计算动态调度的出现为大数据处理带来了希望，运用并行计算的思想改进算法能提高分类速度。结合朴素贝叶斯算法易于并行化的特点对算法进行相应的改进。在单机串行、Hadoop、Spark以及CUDA平台上进行了性能对比实验，最终证明了分类算法并行化后具有较好的加速比。　　关键词：数据挖掘；朴素贝叶斯；动态调度；并行计算　　中图分类号： TN911?34； TM417 文献标识码： A 文章编号： 1004?373X（2016）15?0156?04 　　Abstract： In comparison with other classification algorithms， the naive Bayes algorithm is suitable for parallel improvement. The single machine classification algorithm is unsuitable for the large?scale data processing， however the occurrence of cloud computing dynamic scheduling brings the hope for big data processing. The parallel computing improvement algorithm is used to enhance the classification speed. The algorithm was improved correspondingly in combination with the easily parallel characteristic of naive Bayes algorithm. The performance contrast experiments were performed on single machine serial mode， Hadoop， Spark and CUDA platform. It is verified that the paralleled classification algorithm has good speed?up ratio. 　　Keywords： data mining； naive Bayes； dynamic scheduling； parallel computing 　　0 引言　　传统的基于单机的文本处理方法，在存储容量和处理速度上都遇到了瓶颈，如何处理海量数据是一个重要问题。云计算平台动态调度提供的海量数据的处理能力在文本数据挖掘领域中是非常有效的方案，它能体现出对海量数据的并行计算优势。因此，文本数据挖掘领域的众多研究者将研究重心转移到传统文本数据挖掘算法的并行化研究之中以提高海量数据的处理能力。　　本文研究基于朴素贝叶斯算法的海量中文微博的情感分类以及算法的并行化。通过有效的情感特征识别方法提取出中文微博的情感特征，在这些特征的基础上对微博进行情感分类，致力于在精度、效率上提高。对微博情感分类技术的研究集中于以下几个方面：设计实现海量微博情感分析系统、设计基于朴素贝叶斯的微博情感分类模块以及在大数据下的算法并行化研究等。最后，将其推广到集群模式下进行实验分析，用开源云计算平台Hadoop框架和下一代云计算大数据核心技术Spark以及通过GPU下CUDA的编程技术提高文本分类效率和性能。基于动态调度改变算法的编程模型，实现算法预期的并行性能优化，解决了海量微博数据的情感分类问题。　　1 微博情感数据挖掘分类模块　　情感数据挖掘模块包括：微博数据处理、特征计算和分类器模块。微博数据处理包括数据获取，微博预处理；特征计算模块包括特征提取、构建向量空间模型；分类器模块包括分类器、结果评估。整体的研究结构图如图1所示。　　1.1 微博数据处理模块　　微博数据处理模块包括：数据获取和微博文本预处理。　　（1）实验中训练集样本和测试集样本来源于互联网，是由实验室根据新浪微博网站API和网络爬虫获取。由于获取的微博中包含的话题标签与句子的情感极性没有必然的联系，为了不影响最终的分类结果，首先要将微博文本中的话题标签去掉，只留下文本中的主体部分。同时还应该做以下几项工作：微博文本规则化处理，统计所选取微博的条数，提取并去除话题标签，按照积极性和消极性把句子分成两类。微博文本的规则化处理目的是减少分词时可能引起的误差，其中包括把英文字符统一成大写，