基于MapReduce的粒子群投影寻踪模型的设计与实现.doc

基于MapReduce的粒子群投影寻踪模型的设计与实现.doc

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于MapReduce的粒子群投影寻踪模型的设计与实现

第 36 卷 第 4 期 2012 年 7 月 江西师范大学学报(自然科学版) Journal of Jiangxi Normal University (Natural Science) Vol. 36 No.4 J u l . 2012 文章编号: 1000-5862(2012)04-0388-07 基于 MapReduce 的粒子群投影寻踪模型的设计与实现 黄奕平, 万剑怡, 万中英, 王明文* (江西师范大学计算机信息工程学院, 江西 南昌 330022) 摘要: 利用 MapReduce 模式设计并实现了粒子群投影寻踪算法的并行化, 以提高算法的效率. 在分类阶段使 用了基于 MapReduce 的 KNN 分类算法并行, 实验结果表明: 基于 MapReduce 实现的粒子群投影寻踪模型能 够有效地寻找到较好的投影方向, 确保分类效果; 并且与其串行算法相比, 在实现效率上有较大的提高. 关键词: 投影寻踪; 粒子群优化; MapReduce; 文本分类; 并行化 中图分类号: TP 391.1 文献标志码: A MapReduce 编程模式的性质, 为提高算法的执行效 率 , 本文将该 模型 并行化 , 设计并实 现了 基于 MapReduce 的??子群投影寻踪模型. 投影后的分类 阶段本文采用基于 MapReduce 的 KNN 算法对文本 进行分类. 在 Hadoop 集群环境中采用复旦大学的数 据集进行实验, 实验结果表明: 基于 MapReduce 实 现的粒子群投影寻踪模型在保证分类效果的同时提 高了算法的效率. 0 引言 在数据挖掘中, 常遇到高维数据和大规模数据 的处理. 面对高维数据时, 会遇到算法计算效率和 “维数灾难”导致的常用方法失效等问题. 于是许多 数据降维方法相继被提出, 将高维数据降到低维后 再进行分析, 以提高学习性能; 另一方面可以通过实 现算法并行化来提高算法效率. 投影寻踪(projection pursuit, PP)[1-2]是一种通过寻找出能反映原高维数据 结构或特征的投影方向, 将高维数据投影到低维子 空间上, 以达到在低维空间处理和分析高维数据的 降维方法. PP 模型的建立关键是它的投影指标的优化问题, 已有多种优化算法被采用, 如 GA、回归函数等. 粒 子群优化(particle swarm optimization, PSO)算法[3-5]是 由 J. Kennedy 和 R. C. Eberhart 提出的全局优化进化 算法, 在优化问题中得到广泛应用, 但还未有人对 PSO 算法与投影寻踪结合进行 MapReduce 公司的并 行化研究. MapReduce 计算模式[6-7]是 Google 实验室 提出的用于实现大规模数据的分布式并行处理编程 模式, 它使得程序的并行化更简易化. 在文本分类中, 本文通过投影寻踪模型将文本 投影到低维空间再进行分类; 在模型投影指标(投影 方向)的优化过程中使用了 PSO 算法. 由于算法符合 1 投影寻踪和粒子群算法 1.1 投影寻踪 投影寻踪是一种有效处理和分析维数据的方法, 其通过某种组合(投影寻踪指标)将原始高维数据投 影到一个较低维(1~3 维)的子空间上, 通过优化(极 大化或极小化)这个投影寻踪指标函数来寻踪出极 能反应原高维数据的结构或特征的投影, 实现在低 维空间中对高维数据进行分析和处理的目的. 投影 寻踪模型的构建过程中投影指标的构建和优化是极 其重要的部分. 在分类应用中, 本文采用文献[2]的方法, 以每 类投影数据的均值作为类中心的度量、标准差为类 内距离的度量来共同构造投影指标. 将原数据投影 到 1 维空间, 设训练过程中有 n 个对象, 对象 i 为 Y ∈ Rm (i=1,2, , n; m 为特征数; Rm 为 m 维空间), i m Yi ? ( yi1 , yi 2 ,…, yim ) , a 为投影方 ∈ R , 则对象 Yi 的 收稿日期: 2012-03-06 基金项目: 国家自然科学基金和江西省自然科学基金(20114BAB201037)资助项目. 作者简介: 王明文(1965-), 男, 江西南康人, 教授, 博士, 主要从事信息检察和并行计算的研究. 投影值为 布式过程进行了封装, 大大简化了程序和并行化的 实现 . Map( 映射 ) 过程和 Reduce( 规约 ) 过程是 MapReduce 的 2 个关键过程. 在 MapReduce 计算模 式中需要用户提供 Map 函数和 Reduce 函数以实现 m

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档