海量web 搜索引擎系统中用户行为的分布特征和其启示补.pdfVIP

下载本文档

7
0
约2.23万字
约 13页
2017-09-14 发布于山东
举报
版权申诉

海量web 搜索引擎系统中用户行为的分布特征和其启示补.pdf

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

申旧种 } (E辑) 第31卷第4期 SCIENCEESCHINA(SeriesE) 2001年8月海量Web搜索引擎系统中用户行为的分布特征及其启示补王建勇单松巍雷鸣谢正茂李晓明 (北京大学计算机科学技术系网络与分布式系统研究室，北京 I田871) 摘要统计分析了大规模搜索引擎系统的用户行为的分布特征.结果表明，用户查询内容和URL点击表现出明显的局部性;用户查询的分布符合幂函数约特征并具有良好的自相似性，墓于上述规律，设计了查询cache，比较了FIFO,LRI及带衰减的LFU等3种cache替换策略.然后，基于用户行为考察了海量网页信息的分布特征，并利用URL的入度、镜像度、目录深度等网页参数与用户行为反馈后的相关度的方差分析，阐明了其对优化搜索弓擎系统定序算法(rankingalgorithm)的启示. 关键词万维网搜索引堆分布特征网页用户行为随着Internet技术和应用的不断发展，Web页面的数目已经超过10亿)‘，且以不到半年翻一倍的速度增长.由于搜索引擎系统可以避免用户的育目“冲浪”，已经成为从 “爆炸式”增长的Web信息资源中进行信息发现的重要工具之一但是现有搜索引擎系统所提供的Web查询技术还不能完全满足人们的需求，主要体现在:查询速度较慢、对数以万计的查询结果缺乏准确、有效的相关度评价.当用户面临包含成千上万篇文档的查询结果时仍然存在 “迷航”的问题. 一个典型的搜索引擎主要维护了两类信息，即有关网页的信息和日志文件中记录的用户行为信息.前者指的是机器人从网上抓取的网页经过分析后得到的信息，主要包括网页所包含的关键词、摘要信息、元信息(如网页作者、长度、修改时间等)以及URL超链信息.而后 - 类信息主要包括用户输入的查询项、用户在输出页面中所点击的感兴趣的页面和URL.这两类信息的数据量都很大，比如在“天网”系统[I〕中，它们都已超过百万量级.本文使用天“网”系统的日志记录，对用户行为以及海量网页信息的分布特征进行了研究，分析了某些规律性的东西，这些结论可以用于搜索引擎系统的设计，以提高系统的查询速度和信息检索的服务质量 (查准率、召回率、定序的合理性等). 2000-m-21收稿,2000-12-12收修改稿，国家 “九七=’重大基础研究发展规划项目(批准号 G1999032706) 1)SullivanD.S-hengines:Lookingbeck,lookingfur- .1n:FifthAnnualSearchEngineMeetingReport,Boston,MA,却r 1999.hup://wehsearch.about.cmr/Rhrary/w.kly/x,041700s.h 第4期三些勇等:海量Web搜索引擎系统中用户行为的分布特征及其启示 1.1 相关研究搜索引擎的主要功能是根据查询项为用户从W 上找到所需要的网页.一些传统的 1R(infonnationretrieval)技术如文档的向量空间模型[[21和tf*id!算法为提高搜索引擎的检索质量起到了关键的作用.但由于lrrWW上网页质量参差不齐，其组织性和结构性较差，且检索信息的用户缺乏相关的技能和知识，人们逐渐认识到原有III技术已不能满足搜索引擎系统的要求，转而试图利用网页信息本身的特点和用户行为来弥补传统IR技术在处理Web查询时的不足. 与传统IR面对的信息相比，网页信息有一个很大的特点就是其包含了大量的超链信息.如果我们把网页看作节点，超链看作有向边的话，整个万维网就构成了一张巨大的有向图(图I).Stanford大学的Google搜索引擎系统L41和IBM的Clever系统1)的研究人员基于对该有向图的理解，提出了各自的理论模型以改进搜索引擎系统的检索质量.Google系统用“随机冲浪”模型来描述网络用户对网页的访问行为，并采用称为PageRal‘的技术来计算网页的权值.IBM研究院的Clever系统选择了被称为权威型和目录型的两类网页，并使用称为HITS (hyperl