搜索引擎性能提高遇到瓶颈.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎性能提高遇到瓶颈   评估搜索引擎背后的信息检索技术的先进性,验证互联网环境下大规模数据的信息检索技术的系统有效性,推动检索技术的进步和成果转化,这是信息检索技术评测的主要目标。   互联网蓬勃兴起使人们摆脱了信息贫乏的桎梏,进入了一个信息极度丰富的时代。比如,今天仅Google能索引到的网页就超过80亿个,图片超过10亿张。当信息的来源不再是问题时,如何快捷准确地获取感兴趣的信息就成为人们关注的主要问题。因此,以Web搜索引擎为代表的Google、百度、Yahoo都取得了很大成功。然而,基于不同的信息检索技术发展而来的搜索引擎系统,对于同一个用户查询其结果往往存在差异,由此产生了比较结果的需求。而基于主观使用感受的评价既不客观也不可靠,因此,必须提出一套客观的评测体系,这种评测不受个人主观感觉的影响,并且所做出的评价在通常情况下都成立。这种评测研究的方法应具有以下特点: 明确的形式化研究任务、公开的训练与测试数据、公开的评测比较。它使得研究之间的比较更加客观,从而让研究者认清各种技术的优劣,起到正确引导研究发展方向的目的。      信息检索技术的现状      提及信息检索,大家往往马上会想起Google、Yahoo等搜索引擎公司。可以说,Web搜索引擎与大家的日常生活最为密切,在某种程度上成了信息检索技术的代称。但作为实用化的系统,搜索引擎一般采用比较成熟的技术,并对稳定性、反映速度、界面等工程化问题更为关注。因此,这些系统并不完全代表信息检索技术的发展水平。   由于人们对于各种粒度的信息获取的需求不断增长,国外的学术界和企业界对为此投入了相当大的力量进行前瞻性研究,这方面比较有代表性的机构是马萨诸塞大学、卡耐基梅隆大学、伦敦城市大学、IBM、微软研究院、滑铁卢大学等。   总的来看,早期以Okapi、Smart、查询扩展、相关反馈为代表的内容分析技术,后来以PageRank、HITS为代表的链接分析技术,以及近年来的语言模型,都曾在信息检索发展过程中掀起研究热潮,但近年来却少有激动人心的新技术出现。2005年,TREC在其总结报告指出现在“信息检索性能已进入平台期”。这表明,用户无关的传统信息检索技术已相对成熟。这些技术已经被商用搜索引擎广泛应用,并在一定程度上解决了用户在粗粒度(文档级)上的信息获取需求。   从TREC来看,现在的任务设置向高精度、细粒度和大规模三个方向倾斜,比较有代表性的有高精度文档检索任务(HARD)、新信息检测任务(Novelty)、问答任务(QA)、TB级检索(Terabyte)等。其中前三个任务要求返回的结果不再是简单的一篇篇文档,而是信息片断,而TB级检索则是把测试集的规模提高到了TB级,其他不变。从评测结果来看,这些任务已经取得了很大进展。但相对于目前的技术而言,这些任务还是相当困难的,与实用还有一段距离。   总的来看,国外主流的Web检索技术已比较成熟,无论从结果、性能还是稳定性来看,都能提供令人满意的结果,并且已经在人们的日常信息获取中发挥作用。更高精度和更细粒度的检索技术仍处于实验室阶段,但这方面的研究方兴未艾。也许在不远的将来,我们就能看到基于这些新技术的搜索引擎的出现。而推动信息检索技术的不断进步正是信息检索评测索要达到的目标。      信息检索评测      作为扶持科技发展的重要措施之一,863国家高技术研究发展计划一直对国内的研究有着重要影响。而规范化评测作为检验系统性能的可信机制,逐渐成为863关注的重点之一。2003年,国家863计划软硬件主题设立了“中文信息处理和智能人机接口技术评测”专项课题,对包括机器翻译、语音识别、信息检索在内的中文信息处理关键技术进行评测。   信息检索评测的目的并不仅仅定位为863课题验收或资格认证,而是要了解国内在中文信息检索技术领域的研究现状,验证互联网环境下大规模数据的中文信息检索技术的系统有效性,推动技术进步和成果的应用和转化,成为这个领域技术评价和交流的平台。   从2003年开始,连续三届信息检索评测在任务设置和组织形式上有所不同,如表1所示。      2003年度评测只有一个子任务,即全文检索核心技术评测,但测试在小规模和大规模两种数据集上进行,目的是更为全面地考察系统的性能。其中小规模数据评测主要侧重于奥运领域文本的检索。检索题目以及标准答案委托中科院软件所人工完成,在精选的数千篇网页上设计了20道检索题目,其中体育类15道。大规模数据采用从国内9个网站采集的约100多万篇网页作为评测数据,规模达到GB级。检索题目由中科院计算所设计,共18道,选题领域广泛,包括政治、经济、文化、体育等诸多方面。对大规模数据集,不可能全部通过人工方式制作出标准答案。因此,这里采用了一种称

文档评论(0)

聚文惠 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档