- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于HadoopPageRank算法改进
基于HadoopPageRank算法改进
摘要:针对PageRank算法查准率和检索效率低的问题,通过增加用户点击率、网页发布时间以及主题内容相关度3个影响因子改进PageRank算法,提高用户查准率;利用MapReduce技术实现改进的PageRank算法,提高网页排序和检索效率;最后通过实验结果数据对比,发现用户检索效率和用户查询准确率有较大提高。
关键词:Hadoop集群 ;MapReduce ;PageRank
DOIDOI:10.11907/rjdk.143458
中图分类号:TP312
文献标识码:A 文章编号文章编号2015)001006403
0 引言
作为Google公司核心技术的PageRank算法[12]存在主题漂移、对新网页有歧视等问题,随着搜索引擎技术的不断发展,面对数以 TB 甚至 PB 级的海量数据,传统单机模式下的PageRank算法往往由于 CPU、Memory 以及 I/O开销过大效率较低。本文首先利用用户点击率、网页发布时间以及主题内容相关度3个影响因子改进PageRank算法,避免主题漂移和对新网页的歧视,并且通过用户的点击率赋予链接相应的权值,从而提高用户的查询准确率和体验感。同时,使用Apache开源的 Hadoop [3]分布式平台来实现改进的PageRank算法,利用基于 HDFS[4]的 HBase技术达到实时高效检索海量网页数据,从而达到提高用户检索效率的目的。
1 PageRank算法
1.1 算法简介
PageRank算法是谷歌公司推出的网页排序算法,它基于链接结构,核心思想为:如果一个网页的链接程度越高,该网页就越重要,权重就越大,计算出来的得分也就越高,在返给用户的搜索结果列表中的排名就越靠前。PageRank的计算公式为[1]:
PR(A)=x+(1-x)(PR(T1)C(T1)+...+PR(Tn)C(Tn))(1)
其中,x为0.15;C(Tn)为网页Tn的出链接数;(1-x)是阻尼系数。
1.2 算法改进
针对PageRank算法存在的主题漂移问题,文献[5]在该算法的基础上提出了一种改进的非平均发送权值PageRank算法;由于 PageRank算法对新发布的网页存在一定程度的偏见,文献[6] 同时考虑网页的主题内容相关和网页时间因子,优化了该算法。
上述算法取得了良好的效果,但由于缺乏用户反馈,忽视了主观的网络用户行为选择。为了解决这个问题,文献[7]提出通过分析主题内容和网页链接来提高算法识别能力,可以有效地避免或减少主题漂移现象。但由于缺乏用户反馈系数,不能很好的体现用户的需求。针对这一问题,文献[8]通过用户点击和内容的相关性,提出了一种改进的PageRank算法。
以上研究都只考虑到部分影响因子,或多或少存在一些不足。本文结合用户的主观行为、网页更新时间以及网页内容的主题相关性,将用户点击、时间反馈与主题内容相关性3个影响因子融入到最后的网页排序计算中,较好地解决了 PageRank算法的不足,使用户查询体验更好,满意度更高。
1.2.1 网页时间反馈因子
由于用户对新网页点击的次数少,对旧网页点击的次数较多,所以为了能够让新网页的点击次数增加,
需考虑网页的发布日期。但网页的格式往往不规范,从网页中找到发布日期很难,本文通过搜索引擎搜索周期来表示每个网页的生存期。一般情况下,搜索引擎周期从半个月到一个月不等,如果网页发布比较早,那么很有可能在每一个搜索引擎搜索周期内都能够被检索到。本文采取以下方法:如网页在同一搜索周期内搜索到多次,只算作一次,也就是说网页的存在时间与搜索引擎搜索到该页面的次数 T成正比。
网页更新时间函数Qt,即
Qt=QT(2)
式(2)中Qt为网页的时间反馈因子;T为该网页被搜索到的周期次数;k是一个固定值,可以通过实验测出;最终收敛时k/T趋于1,Qt趋于1。
1.2.2 用户点击信息统计
用户浏览信息时只会点击自己感兴趣的网页,本文据此对 PageRank算法进行优化在计算网页 PR值时,如单从被点击的次数入手考虑出链网页的重要性程度,即网页的存活时间越长,它在存活周期内被点击的次数也就越多,这样对新分布的网页不公平。为了解决此问题,本文通过统计本次网页爬取之后的点击次数与上一次网页爬取时统计的点击次数之差来分配网页的 PR值,如果该网页在一段时间内被点击次数增加的速度越快,那么该网页得到的 PR值就越大。
由于网页的点击次数可以人为控制,所以存在人为提高某类网页的PR值,骗取网页的流量的情况。针对此问题在统计时需考虑如何减少作弊行为对网页重要性的影响
原创力文档


文档评论(0)