基于云计算的Pagerank算法的改进.pdfVIP

  • 14
  • 0
  • 约1.2万字
  • 约 5页
  • 2017-09-12 发布于山东
  • 举报
第42卷 第1期 福州大学学报(自然科学版) Vol.42No.1 2014年2月 JournalofFuzhouUniversity(NaturalScienceEdition) Feb.2014 DOI:10.7631/issn.1000-2243.2014.01.0045 文章编号:1000-2243(2014)01-0045-05 基于云计算的Pagerank算法的改进 郑 晶 (福建江夏学院电子信息科学学院,福建 福州 350108) 摘要:针对Pagerank算法在Web结构挖掘中存在的需要大量迭代的问题,提出一种新的方法.该方法通过对 原始Pagerank值的计算公式进行改进,降低了迭代次数.实验表明,在云计算环境下,新方法减少了网络通信 和访问HDFS的消耗,在时间花费上优于传统的Pagerank算法. 关键词:云计算;Web结构挖掘;Pagerank;Mapreduce 中图分类号:TP311.13  文献标识码:A AnimprovedPagerankalgorithmbasedoncloudcomputing ZHENGJing (CollegeofElectronicInformationScience,Jiang-xiaUniversity,Fuzhou,Fujian350108,China) Abstract:Withtheadventoftheeraofcloudcomputing,itisanewimportantresearchtopictodis cusstheproblemofthewebminingbasedthecloudcomputing.Anewmethodisproposedtosolvethe largenumberofiterationsproblemsintheWebstructureminingforthePagerankalgorithm.Through improvingtheformulaoftheoriginalpagerankvalue,itreducesthenumberofiterations.Theexperi mentsshowthatthismethodreducesthenetworktrafficandtheconsumptionofaccessingHDFSinthe cloudcomputingenviroment,anditissuperiortotheoriginalPagerankalgorithminthetimeconsump tion. Keywords:cloudcomputing;Webstructuremining;Pagerank;Mapreduce 0 引言 随着Web信息技术的发展,用户可以便捷地获取各种信息,但是也面临着如何从大量的Web信息中 [1] 获取有用的信息的问题.1996年,ChenMS 把数据挖掘方法引入到Web领域,掀起了Web数据挖掘研 [2] 究的热潮.1998年,Brin和Page 提出了Pagerank算法,该算法基于链接分析理论提出搜索引擎算法. 随后学者主要从以下两个方面进行深入研究: 主题漂移,即无法区分超链接网页与当前页面的主题相 ① [3] 关度,斯坦福大学的TatherHaveliwala 提出的主题敏感算法(topic-sensitivePagerank,TSPR),华盛顿大 [4] 学的MatthewRichardson和PedroDo

文档评论(0)

1亿VIP精品文档

相关文档