- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
**
**
新年快乐
个性化web信息检索排序算法
成家乐
(湖北第二师范学院 计算机科学与技术)
摘要:本文主要分别论述了基于Web页面内容的排序算法、基于Web页面链接分析的排序算法和基于检索用户的排序算法
第一章 引言
随着社会的进步,科学的发展。互联网成为了社会生活的重要部分。这也使得Web 上信息量讯速膨胀。随着Web 上信息量的快速膨胀, 互联网的信息检索平台, 比如搜索引擎( Baidu, Goog le 等) , 在得到广泛应用的同时也面临着许多困难。首先对于同样的查询关键词, 不同的用户可能会有完全不同的信息要求。只要用户输入的查询关键词是一样的, 搜索引擎对所有的用户返回同样的查询结果。其次用户的信息需求也会随着时间发生变化。现有的搜索引擎也没有处理用户需求的改变的情况。
Web信息检索排序技术是搜索引擎最为核心和关键的技术之一,也是当前搜索引擎亟待进一步研究和完善的问题之一.由于现有搜索引擎排序算法的设计不尽合理,使得许多用户真正感兴趣的结果淹没在搜索引擎数量众多的查询结果之中,降低了搜索引擎的使用效率,浪费了用户的时间,进而影响了用户对搜索引擎的满意度.
自20世纪90年代中期以来,人们在传统信息检索排序技术的基础上,结合Web信息检索的自身特性,提出了许多Web页面检索排序算法,主要分为3类:基于Web页面内容的排序算法、基于Web页面链接分析的排序算法和基于检索用户的排序算法
第二章 基于Web页面内容的排序算法
传统的搜索引擎在进行网页的页面排序时候只考虑用户输入的关键词和页面的相关度这一个因素,搜索结果按照关键词和页面的相关度排列然后返回给用户。
1.1 Web页面内容的排序算法
基于Web页面内容的排序算法,主要源自传统信息检索中常用的文本文档加权标引算法,其基本思想是通过计算Web页面中与查询关键词相匹配的索引项,对Web页面主题内容的表征程度进行排序.基于Web页面内容的排序算法非常丰富,其中以基于词频和位置的加权排序算法应用最为广泛,有些算法尽管可以获得更好的排序效果,但往往由于分析处理过于复杂而不能满足海量Web信息检索快速响应的 需要.
在基于词频排序的算法中,一般会考虑2个因素来度量索引项对该文档主题内容的表征程度:词在文档中出现的频次越高,则这个词越重要,应给以更高的权重,即词频因子;包含该索引项的Web页面数越多,则这个索引项越不重要,即逆文档频率因子.在此基础上,为了消除不同Web页面长度对索引项出现频次统计的影响,通常还会进一步引入规范化因子.记词频因子、逆文档频率因子、规范化因子分别为 web_tf,web—idf,norm,Web页面集合为D={dl,d2,…,dn},其索引项集合为T={tl,t2,…,tm},ti在dj中出现的频次和权重分别为tfij和wij,ti在整个集合D中出现的频次为fi,D中包含ti的Web页面数量为dfi,dj包含的不同索引项个数为lj,dj的文档长度为charLength.应用权重分配模式,基于词频的加权排序函数可以表示为
Score(q,dj)==, (1)
表1 Web页面中索引项的权重分配模式
词频因子web_tf 逆文档频率因子web_idf 规范化因子norm
代码 取值 代码 取值 代码 取值
b 1或0 n 1.0 n 1.0
n tfij t log c
a 0.5+0.5 p log u
l 1+logtfij g b a1
L h 1+
其中web_tfij,web_idfj和normj的常见取值参见表1。根据表1,可以组合出多种基于词频的加权算法,如“ntn”组合就是著名的TF—IDF公式.另外,基于词频的BM25加权算法在概率检索排序中也有良好的表现.
Web页面的题目(title)、标题(H1一H6)、强调的文本(strong)、首尾段落、段落的首尾句以及人链锚文本等区域出现的索引项通常更能表征Web页面的主题内容,因此,在检索排序过程中,通常会在排序函数中引入位置信息或者适当调高词频因子web_idf的权重。Google,Baidu等搜索引擎在检索排序过程中都十分重视索引项在Web页面中所处的位置.另外,Web页面各索引项间的邻近距离的远近,在一定程度上揭示了这些索引
文档评论(0)