云计算技术与大数据处理技术.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
特定应用问题的大数据并行算法 重复文档检测算法(Duplicate Document Detection) 本研究组进行了重复文档检测算法研究 问题: 搜索引擎 的结果中 包含大量 重复文档 链接 Numerous copies of web documents creating a serious problem for search engines: enlarge the space to store index increase the cost of crawling, ranking, clustering… unbeneficial information on the first page in search result 当前第127页\共有197页\编于星期四\17点 特定应用问题的大数据并行算法 重复文档检测算法(Duplicate Document Detection) 当前第128页\共有197页\编于星期四\17点 重复文档检测主要处理过程 根据Shingling算法具有的计算高效的特点以及IMatch算法具有的准确度较高的特点,基于Shingling算法,并借助IMatch算法中强化语义特征的处理思想,研究并提出一种改进的重复网页检测和过滤算法CoreMatch ,该算法针对目前现有的英文文档重复检测方法在处理效果和适用性方面的不足,研究并提出一种适用于中文文档重复检测和过滤的方法,并基于多趟执行的MapReduce程序设计实现了大规模并行化重复文档检测算法 研究论文:PDCAT2012 国际会议,已接收 Parallelized Near-Duplicate Document Detection Algorithm for Large Scale Chinese Web Pages Yongzhuang Wei, Shuai Wang, Chunfeng Yuan, and Yihua Huang 特定应用问题的大数据并行算法 当前第129页\共有197页\编于星期四\17点 算法结果比较 当前第130页\共有197页\编于星期四\17点 具有重复网页检测和聚类功能的中文新闻搜索引擎 英文重复网页检测已有很多相关的研究工作,然而迄今为止,还未见相关的研究文献专门用于解决中文网页的重复检测问题。虽然已有算法在一定程度上可以解决中文网页的重复检测问题,但是由于中文与英文之间在语法和语义上存在的显著差别,使得中文处理方法与英文处理方法有着很大的不同,尤其在新闻网页的处理上。因此,针对中文新闻网页的特点,本文提出一种基于“句号”特征来提取新闻网页特征的方法CCDet。该方法首先提取新闻网页中的句号特征,并定义一种新的网页相似度度量方法称为“一般包含相似度”,该方法可以有效的度量网页之间的重复关系和包含关系。同时CCDet会对具有重复关系和包含关系的网页进行聚类。由于重复网页检测的网页数据量和计算量巨大,因此,我们进一步研究实现了基于MapReduce的CCDet算法和中文新闻搜索引擎。 特定应用问题的大数据并行算法 当前第131页\共有197页\编于星期四\17点 具有重复网页检测和聚类功能的中文新闻搜索引擎 实验结果显示,CCDet在检测网页重复关系和包含关系上的精确度和召回率均达到很好的效果,比现有算法在精度上有显著的提高。 特定应用问题的大数据并行算法 算法 重复对 的个数 正确个数 精确度 CCDet 393 392 0.997 IMatch 131 53 0.405 SpotSigs 1030 47 0.045 研究成果: 本项目为本研究组研究生组队参加2012年中国第一届“云计算与移动互联网大奖赛”的创意赛题,经过角逐已经成为10个优胜创意项目之一进入复赛,并获得二等奖。 当前第132页\共有197页\编于星期四\17点 特定应用问题的大数据并行算法 大规模长基因序列比对算法 本研究组进行了基于MapReduce的大规模基因序列比对并行化算法研究,设计实现了两种并行化比对算法map side extension BLAST和reduce side extension BLAST 研究论文,已发表于PAAP2011国际会议: Parallization of BLAST with MapReduce Xiaoliang Yang, Chunfeng Yuan, Yihua Huang The Fourth International Symposium on Parallel Architectures, Algorithms and Programming (PAAP 2011), Tianjin

文档评论(0)

hebinwei1990 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档