- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎及其性能改进方法研究.doc
搜索引擎及其性能改进方法研究
搜索引擎及其性能改进方法研究
引言
随着的迅速发展,网上的信息也飞速膨胀。用户的主要问题不是信息不够,而是信息过剩(Information overload)。如何帮助人们有效利用的海量信息资源成为当务之急,其首要任务便是发现信息人们迫切需要有效的导航工具,以协助用户找到所需信息。搜索引擎是一种信息检索工具,衡量其查询质量有两个重要标准:查全率和查准率lt;supgt;[1]lt;/supgt;。查全率在信息检索领域的定义是:系统在进行某一检索时,检出的相关 从这些调查数据中不难看出,目前的搜索引擎仍然存在不少局限。造成上述信息检索困难的实质原因在于,传统的搜索引擎对要检索的信息仅仅采用机械的关键词匹配来实现,缺乏知识处理能力和理解能力,也即搜索引擎无法处理在用户看来是非常普通的常识性知识,更不能处理随用户不同而变化的个性化知识等。而搜索引擎从根本上说是为用户提供服务,就需要研究用户行为,从中获取用户使用搜索引擎的一般性规律,这就等于学到一些用户认同的普遍常识,并用这些规律来对搜索引擎进行有针对性的改进。对于某些用户(譬如经常访问搜速引擎的用户),可以考察其特性,为其提供量身订做的服务。搜索引擎的用户日志中记录了用户访问搜索引擎的大量数据,对其进行分析可以得到用户访问搜索引擎的一般性规律和某些用户的特性。
3 性能改进及测试
3.1 日志分析
Google是搜索引擎的典型代表lt;supgt;[2]lt;/supgt;,它提供对30亿文档(其中包括2 073 418 204 张网页)的访问,利用高效的算法和庞大的机器资源,向用户提供高质量的检索服务。国内搜索引擎中,具代表性的是北京大学网络与分布式实验室研究开发的天网(Tianwang)搜索引擎。自1997年10月正式在CER上提供查询服务以来,受到学术界和用户的广泛好评。本研究对天网系统一个月的日志进行实验性分析,统计用户访问天网系统的查询、翻页、点击行为,希望从中找到用户查询行为的一些规律。并且,针对搜索引擎的cache设计了一系列实验,验证其可行性,并且测试了几种替换算法,得到如下结论:
(1)在使用天网的用户中,有一些是属于长期的固定用户,他们经常使用天网,大约占天网用户的20%,他们的查询占到了80%。而有30%以上的用户只是偶尔使用一下天网,他们在一个月的时间内只使用了一次天网。
(2)对天网用户的翻页点击行为进行分析发现,80%以上的查询用户只浏览了第一页内容,这说明第一页内容对于搜索引擎的形象至关重要。60%以上的查询用户没有在结果中点击页面,这表示用户对于天网搜索引擎的返回结果满意度不高。
(3)用户的查询一般都不长,4个汉字以下(8 byte)的查询词占到60%以上,而用户的查询词一般都被切成2~4个单词,99%以上的查询词都不在词典中出现。
(4)用户的查询词、用户点击url、用户查询词切词得到的单词序列,全部具有很强的集中性、一定的短期相关性和长期稳定性,可以考虑在查询端对查询词和索引端对单词进行cache,以提高响应速度,并对未在查询cache中命中的查询进行切词得到的单词序列进行分析,考察索引cache的可行性。分析发现,该单词序列的集中性非常强烈,不到10%的单词占到了80%以上。由此可知,索引端的cache也是非常可行和必要的。
(5)对FIFO、LRU、LFU 3种cache替换策略进行模拟实验,考察这3种替换算法的命中率。结果表明,LRU和LFU不分高下,FIFO略低于二者,而时间性能方面,FIFO和LRU要远好于LFU。因此,从时间效率和命中率两个角度考虑,LRU是最适合的替换算法。对于LRU,其命中率随cache容量的增加而提高,当cache容量超过5 000后,其增长趋于缓和。由此可知,根据目前情况,天网搜索引擎的查询cache大小在5 000比较合适。
3.2 位置相关性分析
在分析用户查询行为时,发现这样两个规律:
(1)用户的查询词一般都很短,2~4个汉字的查询词居多,8个字节长度以下的查询词占到总查询词的61.2%。
(2)用户的查询词往往都不是一个单词,只有不到1%的查询词是字典里的单词,其它绝大部分查询词都被切分成多个单词。
一般而言,如果用户输入的查询词是2~4个汉字,他们应该是把该输入作为一个整体提交给搜索引擎,比如用户提交频率很高的大鸿米店,用户希望返回的结果页面一定是包含大鸿米店的页面,但是经过切词,大鸿米店被切成了四个字大+鸿+米+店,索引子系统会提取大、鸿、米、店4个字出现的文档,进行合并后排序。这样返回的结果只是包含了这4个字,并不一定全部是用户想要的文档;而且,如果其排序只是考虑各个词
您可能关注的文档
最近下载
- 精细化施工方案(经典).pdf VIP
- 无创呼吸机操作及参数设置.ppt VIP
- 坏死性筋膜炎【16页】.pptx VIP
- 湖南省高职单招《职业适应性测试》备考试题及答案(含历年真题).doc VIP
- 2025安徽淮北市总工会社会化工会工作者招聘9人笔试模拟试题及答案解析.docx VIP
- 2025安徽淮北市总工会社会化工会工作者招聘9人笔试备考试题及答案解析.docx VIP
- 毕业论文--基于PLC污水处理控制系统毕业设计.doc VIP
- 《人工智能应用导论》PPT全套完整教学课件.pptx VIP
- GB51038-2015 城市道路交通标志和标线设置规范.docx
- 高等数学(英文版)全套PPT课件.pptx
文档评论(0)