海量web 搜索引擎系统中用户行为的分布特征和其启示补.pdfVIP

海量web 搜索引擎系统中用户行为的分布特征和其启示补.pdf

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
申 旧 种 } (E辑) 第31卷 第4期 SCIENCEESCHINA(SeriesE) 2001年8月 海量Web搜索引擎系统中用户行为的 分布特征及其启示补 王建勇 单松巍 雷 鸣 谢正茂 李晓明 (北京大学计算机科学技术系网络与分布式系统研究室,北京 I田871) 摘要 统计分析了大规模搜索引擎系统的用户行为的分布特征.结果表明,用户 查询内容和URL点击表现出明显的局部性;用户查询的分布符合幂函数约特征并具 有良好的自相似性,墓于上述规律,设计了查询cache,比较了FIFO,LRI及带衰减 的LFU等3种cache替换策略.然后,基于用户行为考察了海量网页信息的分布特 征,并利用URL的入度、镜像度、目录深度等网页参数与用户行为反馈后的相关度的 方差分析,阐明了其对优化搜索弓擎系统定序算法(rankingalgorithm)的启示. 关键词 万维网 搜索引堆 分布特征 网页 用户行为 随着Internet技术和应用的不断发展,Web页面的数目已经超过10亿)‘,且以不到半年翻 一倍的速度增长.由于搜索引擎系统可以避免用户的育目“冲浪”,已经成为从 “爆炸式”增长 的Web信息资源中进行信息发现的重要工具之一 但是现有搜索引擎系统所提供的Web查 询技术还不能完全满足人们的需求,主要体现在:查询速度较慢、对数以万计的查询结果缺乏 准确、有效的相关度评价.当用户面临包含成千上万篇文档的查询结果时仍然存在 “迷航”的 问题. 一个典型的搜索引擎主要维护了两类信息,即有关网页的信息和日志文件中记录的用户 行为信息.前者指的是机器人从网上抓取的网页经过分析后得到的信息,主要包括网页所包 含的关键词、摘要信息、元信息(如网页作者、长度、修改时间等)以及URL超链信息.而后 - 类信息主要包括用户输入的查询项、用户在输出页面中所点击的感兴趣的页面和URL.这两 类信息的数据量都很大,比如在“天网”系统[I〕中,它们都已超过百万量级.本文使用天“网”系 统的日志记录,对用户行为以及海量网页信息的分布特征进行了研究,分析了某些规律性的东 西,这些结论可以用于搜索引擎系统的设计,以提高系统的查询速度和信息检索的服务质量 (查准率、召回率、定序的合理性等). 2000-m-21收稿,2000-12-12收修改稿 ,国家 “九七=’重大基础研究发展规划项目(批准号 G1999032706) 1)SullivanD.S-hengines:Lookingbeck,lookingfur- .1n:FifthAnnualSearchEngineMeetingReport,Boston,MA,却r 1999.hup://wehsearch.about.cmr/Rhrary/w.kly/x,041700s.h 第4期 三些勇等:海量Web搜索引擎系统中用户行为的分布特征及其启示 1.1 相关研究 搜索引擎的主要功能是根据查询项为用户从W 上找到所需要的网页.一些传统的 1R(infonnationretrieval)技术如文档的向量空间模型[[21和tf*id!算法为提高搜索引擎的检索 质量起到了关键的作用.但由于lrrWW上网页质量参差不齐,其组织性和结构性较差,且检索 信息的用户缺乏相关的技能和知识,人们逐渐认识到原有III技术已不能满足搜索引擎系统的 要求,转而试图利用网页信息本身的特点和用户行为来弥补传统IR技术在处理Web查询时 的不足. 与传统IR面对的信息相比,网页信息有一个很大 的特点就是其包含了大量的超链信息.如果我们把网 页看作节点,超链看作有向边的话,整个万维网就构成 了一张巨大的有向图(图I).Stanford大学的Google搜 索引擎系统L41和IBM的Clever系统1)的研究人员基于对 该有向图的理解,提出了各自的理论模型以改进搜索引 擎系统的检索质量.Google系统用“随机冲浪”模型来描 述网络用户对网页的访问行为,并采用称为PageRal‘的 技术来计算网页的权值.IBM研究院的Clever系统选择 了被称为权威型和目录型的两类网页,并使用称为HITS (hyperl

文档评论(0)

精品教学资料 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档