- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2010年 1月 浙 江 教 育 学 院 学 报 January2010
第 1期 JOURNALOFZHEJIANGEDUCATIONlNSTITUTE NO.1
网络搜索引擎技术与应用
椿夕伟
(浙江教育学院 信息学院,浙江 杭州310012)
摘 要 :PageRank以某个 网页被指 向的链接数为基础得到 网页的权值 ,网络搜
索引擎以PageRank为基础对网页进行排序.一个完整的搜 索引擎由搜索器、索引器、
检索器和用户接 口构成.用搜索引擎模型可以解决交通线路规划、图书管理等领域 中
对大量数据需要进行优先级排序 的实际问题 .
关键词:网络搜索引擎;PageRank;链接数 ;搜索器;索引器;检索器
中图分类号:TP39l 文献标识码:A 文章编号:1671—6574(2010)01—0103—04
1 引 言
网页的数据量非常大 ,信息林林总总 ,搜索引擎必须让用户在大量数据中得到最有价值的
信息.为了做到这点,搜索引擎进行网页排序 (PageRank),让更有价值 的网页排在搜索结果的
前面.以 Google为代表 的搜索引擎认为~个有价值的网页来 自其他网页的链接数应该 比较
多;其他 网站认为某个网页具有参考价值 ,才会链接到那个 网页.因此 Google的PageRank以
网页被指 向的链接数为基础计算网页的权值.当然 ,PageRank不只是看一个 网站 的链接数量 ,
它也分析链接 网站的重要性 ,链接 网站的重要性会影响这个链接的权值 ;还有链接文字所处的
位置和字体特征等都会影响链接的权值 ;在搜索引擎中这是一个复杂的数学运算….
网页排序 (PageRank)模型符合实际的需要 ,该模型是现实中解决需要对大量数据进行排
序问题的关键.例如交通路线规划就是在不同城市之间建立链接 ,让新增加的线路发挥最大效
率 ,其实就是网站之间链接最有效的问题 ,在最有价值的城市间建立线路会提高新线路效率.
很多图书馆里藏书量很大,基本都是 以类别进行区分存放,最需要的书掩盖在大量的同类书
中,图书管理员不知道该以何种标准淘汰书籍 ;如果把书籍按照模型进行排序,则可 以把最有
价值的摆放在前面,最没有价值的进行淘汰.
2 链接策略网页排序 (PageRank)
链接 (即超链接)指从一个 网页指 向另外一个 目标 的链接关系 ,这个 目标可 以是一个 网
页 ,也可 以是同一网页的不同位置,还可以是一个图片、电子邮件地址或者文件 ,甚至是一个应
用程序 .在搜索引擎里 ,链接反映的是页面间信任关系 ,也就是说,如果一个页面指 向另外
一 个页面,则表示该页面对被链接页面是信任的.
收稿 日期:2009—11—25
作者简介:林夕伟 (1978一),男,山东潍坊人,浙江教育学院信息学院计算机系讲师,工学硕士
浙江教育学院学报 2010点
把文档检索的理论应用到网页中,引用网页的链接数一定程度上反映了这个网页的重要
性和品质.PageRank发展 了这种思想 ,认为网页间的链接是不平等的.PageRank定义如下 :
假定 ,, ,… 是具有指向网页A超链接的网页 ;参数 d是一个根据实际情况设定的可
调制动参数 ,取值范围0到 1(通常取0.85);C(A)是从 网页A链接到其它网页的链接数 ;网页
A的PageRank计算公式如下 :
PR(A)=(1一d)+d(P (1)/C(T1)+PR( )/c(12)+…+PR(Tn)/c(Tn)) (1)
由公式(1)可以看出,PageRank分布在 web的各个 网页上 ,所有网页的PageRank加起来
的总是为 1.
网页 PageRank是通过递归定义得到.公式中也很容易看出一个网页对外提供的超链接越
多 ,对应的C(Ti)越大 ,则它对另外网页的PageRank提供 的贡献越小.网页本身的PageRank
越大则它 占的权重越大 ,即网页之间的PageRank能相互继
文档评论(0)