网络搜索引擎技术与应用.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2010年 1月 浙 江 教 育 学 院 学 报 January2010 第 1期 JOURNALOFZHEJIANGEDUCATIONlNSTITUTE NO.1 网络搜索引擎技术与应用 椿夕伟 (浙江教育学院 信息学院,浙江 杭州310012) 摘 要 :PageRank以某个 网页被指 向的链接数为基础得到 网页的权值 ,网络搜 索引擎以PageRank为基础对网页进行排序.一个完整的搜 索引擎由搜索器、索引器、 检索器和用户接 口构成.用搜索引擎模型可以解决交通线路规划、图书管理等领域 中 对大量数据需要进行优先级排序 的实际问题 . 关键词:网络搜索引擎;PageRank;链接数 ;搜索器;索引器;检索器 中图分类号:TP39l 文献标识码:A 文章编号:1671—6574(2010)01—0103—04 1 引 言 网页的数据量非常大 ,信息林林总总 ,搜索引擎必须让用户在大量数据中得到最有价值的 信息.为了做到这点,搜索引擎进行网页排序 (PageRank),让更有价值 的网页排在搜索结果的 前面.以 Google为代表 的搜索引擎认为~个有价值的网页来 自其他网页的链接数应该 比较 多;其他 网站认为某个网页具有参考价值 ,才会链接到那个 网页.因此 Google的PageRank以 网页被指 向的链接数为基础计算网页的权值.当然 ,PageRank不只是看一个 网站 的链接数量 , 它也分析链接 网站的重要性 ,链接 网站的重要性会影响这个链接的权值 ;还有链接文字所处的 位置和字体特征等都会影响链接的权值 ;在搜索引擎中这是一个复杂的数学运算…. 网页排序 (PageRank)模型符合实际的需要 ,该模型是现实中解决需要对大量数据进行排 序问题的关键.例如交通路线规划就是在不同城市之间建立链接 ,让新增加的线路发挥最大效 率 ,其实就是网站之间链接最有效的问题 ,在最有价值的城市间建立线路会提高新线路效率. 很多图书馆里藏书量很大,基本都是 以类别进行区分存放,最需要的书掩盖在大量的同类书 中,图书管理员不知道该以何种标准淘汰书籍 ;如果把书籍按照模型进行排序,则可 以把最有 价值的摆放在前面,最没有价值的进行淘汰. 2 链接策略网页排序 (PageRank) 链接 (即超链接)指从一个 网页指 向另外一个 目标 的链接关系 ,这个 目标可 以是一个 网 页 ,也可 以是同一网页的不同位置,还可以是一个图片、电子邮件地址或者文件 ,甚至是一个应 用程序 .在搜索引擎里 ,链接反映的是页面间信任关系 ,也就是说,如果一个页面指 向另外 一 个页面,则表示该页面对被链接页面是信任的. 收稿 日期:2009—11—25 作者简介:林夕伟 (1978一),男,山东潍坊人,浙江教育学院信息学院计算机系讲师,工学硕士 浙江教育学院学报 2010点 把文档检索的理论应用到网页中,引用网页的链接数一定程度上反映了这个网页的重要 性和品质.PageRank发展 了这种思想 ,认为网页间的链接是不平等的.PageRank定义如下 : 假定 ,, ,… 是具有指向网页A超链接的网页 ;参数 d是一个根据实际情况设定的可 调制动参数 ,取值范围0到 1(通常取0.85);C(A)是从 网页A链接到其它网页的链接数 ;网页 A的PageRank计算公式如下 : PR(A)=(1一d)+d(P (1)/C(T1)+PR( )/c(12)+…+PR(Tn)/c(Tn)) (1) 由公式(1)可以看出,PageRank分布在 web的各个 网页上 ,所有网页的PageRank加起来 的总是为 1. 网页 PageRank是通过递归定义得到.公式中也很容易看出一个网页对外提供的超链接越 多 ,对应的C(Ti)越大 ,则它对另外网页的PageRank提供 的贡献越小.网页本身的PageRank 越大则它 占的权重越大 ,即网页之间的PageRank能相互继

文档评论(0)

li455504605 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档