- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PageRamk算法
* * * * * * PageRank算法 赵泽亚 目录 背景及简介 1 算法及实现 2 改进的算法 3 背景及简介 网页见所面临的两大问题: 随着网络的流行与迅速发展,web的数量急剧增加,对网页搜索时返回的相关网页的数量也很多,如何用其中挑选出几十个相关性最强的网页 网络中经常会有许多不相关的垃圾网页,如何排除这些网页 背景及简介 为了解决上述问题,研究人员将目光转向超链接方面 与传统的信息检索中,将每个文档看作是相互独立的不同,Web之间是通过超链接联系在一起,这就就为网页排名提供了极其重要的信息。Google于1998年提出来PageRank算法,是早期搜索引擎的著名算法 本质上讲,PageRank就是通过大量的连接结构来估计每个网页的重要程度 目录 背景及简介 1 算法及实现 2 改进的算法 3 算法及实现 PageRank算法是用来对互联网网站进行排名,它将整个互联网上的网站看做一个个节点,很多网站都会有一些超链接,该超链接指向别的网站,这样的话整个互联网就抽象成了一个有向图的模型 网页i的In-link:别的网页链到网页i的链接。实际上就是网页i的入度 网页i的Out-link:网页i上的外部链接,这就是网页i的出度。 算法及实现 算法基本思想: 网站的外链接可以被视为对其它网站的投票,如果一个网站获得的票数越多,那么该网站的内容就被认为越权威,那么该网站的排名应该靠前。 且每个投票的权重不同,它主要由源网页自身的权威决定 算法及实现 整个互联网模型可以表示为G=(V,E),V表示顶点,E表示边,顶点的个数为n,我们的目标就是计算每个网站i的评分P(i) (其中Oj代表第j个网页出边的个数) 令P为n维向量,Aij为边矩阵 算法及实现 整个系统的n个等式可表示为以下形式: 但以上式成立需满足三个条件: 1、A是随机过程矩阵 2、A是不可化简的 3、A是非周期的 算法及实现 对于条件1,如果A是随机过程,那么矩阵中每一行中的元素一定是一个非负数,并且这些元素加起来的和一定是1,但若存在某一个网页是孤立存在的,A矩阵不满足上述条件 算法及实现 对于条件2,所谓A是不可化简的,其意义就是A代表的是一个强连通图(任意两点之间都有一条路径),然而大部分情况下,A未必是一个强连通图 对于条件3,一个周期性的马尔科夫转移矩阵往往是一个每一行和每一列只有一个1的矩阵,这个矩阵实际构成的是一个环。这种环在实际的网络拓扑模型中是经常出现的。所以A是非周期性的假设也是不成立的。 算法及实现 针对上述三个条件,我们做以下改进:给每两个页面间增加一条边,赋给它一个很小的转移概率,并由参数d控制(其物理意义是:当点开一个页面时,我们有一定的概率不点任何超链接,直接跳到另一个无关的页面) 得到一个改进的PageRank模型 算法及实现 前面的表达式是针对每个节点的,将其写成矩阵的形式,即为 算法及实现 PageRank的值可通过迭代个方法求得,初值可以任意设置,经验可得d= 0.85效果较好 目录 背景及简介 1 算法及实现 2 改进的算法 3 改进的算法 PageRank算法中忽略的问题: 由于网页处于一个动态的不断变化的环境中,具有很强的时效性,曾经很重要的网页现在或将来可能会不再重要 在大部分情况下,网页出现的时间越长,指向它的超链接越多,而最新的重要的网页反而超链接较少 改进的算法 针对以上问题,提出TimedRank算法,其主要思想: 在原有的PageRank算法的思想上增加一个时域,定义一个时间函数f(t),通过选择合适的f(t)来代替d,实现对那些老网页的“惩罚” * * * * * * * * * * * * * * * * * * * * * * * * * * * * * *
文档评论(0)