- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
申 旧 种 } (E辑)
第31卷 第4期 SCIENCEESCHINA(SeriesE) 2001年8月
海量Web搜索引擎系统中用户行为的
分布特征及其启示补
王建勇 单松巍 雷 鸣 谢正茂 李晓明
(北京大学计算机科学技术系网络与分布式系统研究室,北京 I田871)
摘要 统计分析了大规模搜索引擎系统的用户行为的分布特征.结果表明,用户
查询内容和URL点击表现出明显的局部性;用户查询的分布符合幂函数约特征并具
有良好的自相似性,墓于上述规律,设计了查询cache,比较了FIFO,LRI及带衰减
的LFU等3种cache替换策略.然后,基于用户行为考察了海量网页信息的分布特
征,并利用URL的入度、镜像度、目录深度等网页参数与用户行为反馈后的相关度的
方差分析,阐明了其对优化搜索弓擎系统定序算法(rankingalgorithm)的启示.
关键词 万维网 搜索引堆 分布特征 网页 用户行为
随着Internet技术和应用的不断发展,Web页面的数目已经超过10亿)‘,且以不到半年翻
一倍的速度增长.由于搜索引擎系统可以避免用户的育目“冲浪”,已经成为从 “爆炸式”增长
的Web信息资源中进行信息发现的重要工具之一 但是现有搜索引擎系统所提供的Web查
询技术还不能完全满足人们的需求,主要体现在:查询速度较慢、对数以万计的查询结果缺乏
准确、有效的相关度评价.当用户面临包含成千上万篇文档的查询结果时仍然存在 “迷航”的
问题.
一个典型的搜索引擎主要维护了两类信息,即有关网页的信息和日志文件中记录的用户
行为信息.前者指的是机器人从网上抓取的网页经过分析后得到的信息,主要包括网页所包
含的关键词、摘要信息、元信息(如网页作者、长度、修改时间等)以及URL超链信息.而后 -
类信息主要包括用户输入的查询项、用户在输出页面中所点击的感兴趣的页面和URL.这两
类信息的数据量都很大,比如在“天网”系统[I〕中,它们都已超过百万量级.本文使用天“网”系
统的日志记录,对用户行为以及海量网页信息的分布特征进行了研究,分析了某些规律性的东
西,这些结论可以用于搜索引擎系统的设计,以提高系统的查询速度和信息检索的服务质量
(查准率、召回率、定序的合理性等).
2000-m-21收稿,2000-12-12收修改稿
,国家 “九七=’重大基础研究发展规划项目(批准号 G1999032706)
1)SullivanD.S-hengines:Lookingbeck,lookingfur- .1n:FifthAnnualSearchEngineMeetingReport,Boston,MA,却r
1999.hup://wehsearch.about.cmr/Rhrary/w.kly/x,041700s.h
第4期 三些勇等:海量Web搜索引擎系统中用户行为的分布特征及其启示
1.1 相关研究
搜索引擎的主要功能是根据查询项为用户从W 上找到所需要的网页.一些传统的
1R(infonnationretrieval)技术如文档的向量空间模型[[21和tf*id!算法为提高搜索引擎的检索
质量起到了关键的作用.但由于lrrWW上网页质量参差不齐,其组织性和结构性较差,且检索
信息的用户缺乏相关的技能和知识,人们逐渐认识到原有III技术已不能满足搜索引擎系统的
要求,转而试图利用网页信息本身的特点和用户行为来弥补传统IR技术在处理Web查询时
的不足.
与传统IR面对的信息相比,网页信息有一个很大
的特点就是其包含了大量的超链信息.如果我们把网
页看作节点,超链看作有向边的话,整个万维网就构成
了一张巨大的有向图(图I).Stanford大学的Google搜
索引擎系统L41和IBM的Clever系统1)的研究人员基于对
该有向图的理解,提出了各自的理论模型以改进搜索引
擎系统的检索质量.Google系统用“随机冲浪”模型来描
述网络用户对网页的访问行为,并采用称为PageRal‘的
技术来计算网页的权值.IBM研究院的Clever系统选择
了被称为权威型和目录型的两类网页,并使用称为HITS
(hyperl
文档评论(0)