- 8
- 0
- 约1.28千字
- 约 3页
- 2017-03-29 发布于北京
- 举报
浅析网页搜索引擎的PageRank排序算法.doc
浅析网页搜索引擎的PageRank排序算法
摘 要 随着Internet 技术的快速普及和迅猛发展,Web 上信息总量日益膨胀。用户如何从网页信息中快速获取所需信息变得日益重要。本文对Web结构挖掘算法PageRank 算法进行研究学习,分析了其两种算法的基本思想和技术特点。
关键词 排序 PageRank算法 随机游走
中图分类号:TP393 文献标识码:A
1 PageRank算法概述
PageRank(网页级别),2001年9月被授予美国专利,专利人是Google创始人之一拉里?佩奇[1]。它是Google排名运算法则(排名公式)的一部分,是Google用于用来标识网页的等级/重要性的一种方法,是Google用来衡量一个网站的好坏的唯一标准。在揉合了诸如Title标识和Keywords标识等所有其它因素之后,Google通过PageRank来调整结果,使那些更具“等级/重要性”的网页在搜索结果中另网站排名获得提升,从而提高搜索结果的相关性和质量。级别从0到10级,10级为满分。
2 PageRank算法过程分析
PageRank算法所建立的用户浏览模型被称为“随机游走”(random walk)模型。用户使用一个特殊的浏览器来浏览网页,这个浏览器没有地址栏、后退按钮,即只能顺着网页链接浏览。同时提供一个“随便逛逛”的功能,可以通过点此按钮随机打开万维网上的一个网页开始浏览。那么,网页A被访问的概率可以用如下公式计算得到:
上式右半部分是使用“随便逛逛”功能访问到页面A的概率,而后半部分则是使用超链接访问到页面A的概率,两者相加即为访问到页面A的总概率大小。可知,如果给定参数 ,页面A的PageRank值事实上是由链接到它的各个页面的PageRank值决定的。
3 PageRank算法
PageRank算法要求G中不存在没有超链接的“死胡同”网页,为解决这一问题,可以采用如下算法:
(4)当结果向量收敛时,返回(3)继续循环;当收敛时,算法结束,输出所计算出的G中每一个节点n的PR(n)的结果。
4.总结
可以看出,与第一种算法相比,第二种算法考虑到没有超链接网页的情况,对这部分网页,“随机游走”的浏览方式则只能点击“随便逛逛”功能进行跳转,而任何G中的网页都可能成为跳转目标。事实上,这相当于先在“死胡同”网页和G中的所有网页两两之间添加了一条虚拟的超链接,之后,再在这个经过修改的链接关系图上进行简化算法。
参考文献
[1] 黄德才,戚华春,钱能.基于主题相似度模型的TS2PageRank算法[J].小型微型计算机系统,2007(03).
[2] 卢开澄.计算机密码学――计算机网络中的数据保密与安全(第3版)[M].清化大学出版社,2002.
[3] 李凯,赫枫龄,左万利.PageRank2Pro一种改进的网页排序算法[J].吉林大学学报,2003(4).
3
您可能关注的文档
- 浅析极简主义风格的平面设计.doc
- 浅析树脂镜片镀膜的光学效果.doc
- 浅析校园网络安全问题及应对策略.doc
- 浅析核磁共振录井技术在石油工程中的应用.doc
- 浅析案例教学法在商务英语口语教学中的运用.doc
- 浅析档案管理信息化的发展需求.doc
- 浅析概念隐喻的运行机制.doc
- 浅析欧标体系下的法语写作课程设计.doc
- 浅析民办高校的人才发展困境.doc
- 浅析民族性文化元素在动画设计中的应用.doc
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
原创力文档

文档评论(0)