- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
WEB超链分析算法
WEB超链分析算法
WEB超链分析算法
超链分析的基本原理是:在某次搜索的所有结果中,被其他网页用超链指向得越多的网
页,其价值就越高,就越应该在结果排序中排到前面。
超链分析是一种引用投票机制,对于静态网页或者网站主页,它具有一定的合理性,因
为这样的网页容易根据其在互联网上受到的评价产生不同的超链指向量,超链分析的结果可
以反映网页的重要程度,从而给用户提供更重要、更有价值的搜索结果。
搜索引擎,并不能真正理解网页上的内容,它只能机械地匹配网页上的文字。它收集了
互联网上几千万到几十亿个网页并对网页中的每一个文字(即关键词)进行索引,建立索引
数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词
的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索
关键词的相关度高低,依次排列。
搜索引擎在查询时主要根据一个站点的内容与查询词的关联程度进行排序。对于一个站
点的内容搜索引擎则是根据标题、关键词、描述、页面开始部分的内容以及这些内容本身之
间的关联程度以及一个站点在整个网络上的关联程度来确定的。
使用超链分析技术,除要分析索引网页本身的文字,还要分析索引所有指向该网页的链
接的URL、AnchorText,甚至链接周围的文字。所以,有时候,即使某个网页A中并没有
某个词,比如软件,但如果有别的网页B用链接软件指向这个网页A,那么用户搜
索软件时也能找到网页A。而且,如果有越多网页(C、D、E、F…)用名为软件
的链接指向这个网页A,或者给出这个链接的源网页(B、C、D、E、F…)越优秀,那
么网页A在用户搜索超链分析时也会被认为相关度越高,排序也会越靠前。
WEB超链分析算法
2.1 Google和PageRank算法
搜索引擎Google最初是斯坦福大学的博士研究生Sergey Brin和Lawrence Page实现的一个原型系统[2],现在已经发展成为WWW上最好的搜索引擎之一。Google的体系结构类似于传统的搜索引擎,它与传统的搜索引擎最大的不同处在于对网页进行了基于权威值的排序处理,使最重要的网页出现在结果的最前面。Google通过PageRank元算法计算出网页的PageRank值,从而决定网页在结果集中的出现位置,PageRank值越高的网页,在结果中出现的位置越前。
2.1.1 PageRank算法
PageRank算法基于下面2个前提:
前提1:一个网页被多次引用,则它可能是很重要的;一个网页虽然没有被多次引用,但是被重要的网页引用,则它也可能是很重要的;一个网页的重要性被平均的传递到它所引用的网页。这种重要的网页称为权威(Authoritive)网页。
前提2:假定用户一开始随机的访问网页集合中的一个网页,以后跟随网页的向外链接向前浏览网页,不回退浏览,浏览下一个网页的概率就是被浏览网页的PageRank值。
简单PageRank算法描述如下:u是一个网页,是u指向的网页集合,是指向u的网页集合,是u指向外的链接数,显然=||,c是一个用于规范化的因子(Google通常取0.85),(这种表示法也适用于以后介绍的算法)则u的Rank值计算如下:
这就是算法的形式化描述,也可以用矩阵来描述此算法,设A为一个方阵,行和列对应网页集的网页。如果网页i有指向网页j的一个链接,则,否则=0。设V是对应网页集的一个向量,有V=cAV,V为A的特征根为c的特征向量。实际上,只需要求出最大特征根的特征向量,就是网页集对应的最终PageRank值,这可以用迭代方法计算。
如果有2个相互指向的网页a,b,他们不指向其它任何网页,另外有某个网页c,指向a,b中的某一个,比如a,那么在迭代计算中,a,b的rank值不分布出去而不断的累计。如下图:
为了解决这个问题,Sergey Brin和Lawrence Page改进了算法,引入了衰退因子E(u),E(U)是对应网页集的某一向量,对应rank的初始值,算法改进如下:
其中,=1,对应的矩阵形式为V=c(AV+E)。
另外还有一些特殊的链接,指向的网页没有向外的链接。PageRank计算时,把这种链接首先除去,等计算完以后再加入,这对原来计算出的网页的rank值影响是很小的。
Pagerank算法除了对搜索结果进行排序外,还可以应用到其它方面,如估算网络流量,向后链接的预测器,为用户导航等[2]。
2.1.2算法的一些问题
Google是结合文本的方法来实现PageRank算法的[2],所以只返回包含查询项的网页,然后根据网页的rank值对搜索到的结果进行排序,把rank值最高的网页放置到最前面,但是如果最重要的网页不在结果网页集中,PageRank算法就无能为力了,比如在Google中查询search engines,
您可能关注的文档
- Java 中深层理解父类引用指向子类对象.doc
- Java 权限模型的缺点.doc
- java中方法的继承,覆盖.doc
- JAVA基础 XML在分布式系统中的作用 3.doc
- Java容器类List、ArrayList、Vect.doc
- JAVA学习基础四 常用类、容器、泛型.doc
- Java编程那些事儿8 9.doc
- Java虚拟机的选项.doc
- java金融软件开发.doc
- Java连接数据库技术JDBC.doc
- “新质生产力”与全球产业链重构 -价值链、空间链、供应链三维驱动 202502-新发展研究院.pdf
- 2024年安全生产验收制度(二篇) .pdf
- 中控在有色行业智能制造的探索.docx
- 数据资产核心政策.docx
- 【易凯】2024年GLP-1赛道大事记.pdf
- 中汽协:2025年1月中国汽车产销报告-中汽协产销.docx
- 2024年资产支持票据市场年度报告:两年蛰伏涅槃归来,票据试点行以致远 -大公国际.pdf
- 2025年全球人才展望:见解·预测·建议+2025+Global+Talent+Outlook+Report:Insights,+Predictions,+and+Recommendations.pdf
- 中国不动产首席展望 2025 调研报告.docx
- 数字化转型基本普及,智能化升级战略突破.docx
最近下载
- 党员领导干部2024年度民主生活会个人对照检查材料.docx VIP
- 新改版苏教版六年级下册科学全册知识点.doc
- 建设单位管理指南.ppt VIP
- 人力资源管理诊断告及建议.ppt
- 新闻采访与写作.ppt VIP
- 项目1 1.1 植物生产与环境概述(1)(课件)- 《植物生产与环境》(高教版第四版)同步精品课堂.pptx
- (人教2024版)英语七年级下册全册单元知识点讲解+思维导图(新教材).docx
- 2025年临床医师定期考核试题中医知识题库及答案(共300题).doc
- 学校校长2023年度生活会个人对照检查材料.doc VIP
- 2024-2025年度民主生活个人“四个带头”检查发言材料八篇.docx VIP
文档评论(0)