- 14
- 0
- 约1.2万字
- 约 5页
- 2017-09-12 发布于山东
- 举报
第42卷 第1期 福州大学学报(自然科学版) Vol.42No.1
2014年2月 JournalofFuzhouUniversity(NaturalScienceEdition) Feb.2014
DOI:10.7631/issn.1000-2243.2014.01.0045 文章编号:1000-2243(2014)01-0045-05
基于云计算的Pagerank算法的改进
郑 晶
(福建江夏学院电子信息科学学院,福建 福州 350108)
摘要:针对Pagerank算法在Web结构挖掘中存在的需要大量迭代的问题,提出一种新的方法.该方法通过对
原始Pagerank值的计算公式进行改进,降低了迭代次数.实验表明,在云计算环境下,新方法减少了网络通信
和访问HDFS的消耗,在时间花费上优于传统的Pagerank算法.
关键词:云计算;Web结构挖掘;Pagerank;Mapreduce
中图分类号:TP311.13 文献标识码:A
AnimprovedPagerankalgorithmbasedoncloudcomputing
ZHENGJing
(CollegeofElectronicInformationScience,Jiang-xiaUniversity,Fuzhou,Fujian350108,China)
Abstract:Withtheadventoftheeraofcloudcomputing,itisanewimportantresearchtopictodis
cusstheproblemofthewebminingbasedthecloudcomputing.Anewmethodisproposedtosolvethe
largenumberofiterationsproblemsintheWebstructureminingforthePagerankalgorithm.Through
improvingtheformulaoftheoriginalpagerankvalue,itreducesthenumberofiterations.Theexperi
mentsshowthatthismethodreducesthenetworktrafficandtheconsumptionofaccessingHDFSinthe
cloudcomputingenviroment,anditissuperiortotheoriginalPagerankalgorithminthetimeconsump
tion.
Keywords:cloudcomputing;Webstructuremining;Pagerank;Mapreduce
0 引言
随着Web信息技术的发展,用户可以便捷地获取各种信息,但是也面临着如何从大量的Web信息中
[1]
获取有用的信息的问题.1996年,ChenMS 把数据挖掘方法引入到Web领域,掀起了Web数据挖掘研
[2]
究的热潮.1998年,Brin和Page 提出了Pagerank算法,该算法基于链接分析理论提出搜索引擎算法.
随后学者主要从以下两个方面进行深入研究: 主题漂移,即无法区分超链接网页与当前页面的主题相
①
[3]
关度,斯坦福大学的TatherHaveliwala 提出的主题敏感算法(topic-sensitivePagerank,TSPR),华盛顿大
[4]
学的MatthewRichardson和PedroDo
您可能关注的文档
最近下载
- 2025年高考化学真题完全解读(湖北卷).pdf VIP
- 露天爆破操作规程.pdf VIP
- 养老院工程施工组织设计.doc VIP
- 熵基 ZKT eco F7Plus 指纹门禁终端用户手册.pdf VIP
- 中金公司-软件及服务:人工智能十年展望(二十七):越过“遗忘”的边界,模型记忆的三层架构与产业机遇-260211-31页.pdf VIP
- 企业人力资源管理师(薪税师)操作技能考试题库.docx
- 湖南省长沙市长郡中学2026届高三上学期月考(三)化学试题(含答案).docx VIP
- 《国际市场营销学》(第三版-甘碧群著)全册习题参考答案.docx VIP
- 湖南省长沙市长郡中学2026届高三上学期月考(三)化学试题(含答案).pdf VIP
- 2025形势与政策教案课件-第一讲加快建设社会主义文化强国.docx VIP
原创力文档

文档评论(0)