搜索引擎性能提高遇到瓶颈.docVIP

下载本文档

15
0
约6.31千字
约 13页
2018-08-24 发布于湖北
举报
版权申诉

搜索引擎性能提高遇到瓶颈.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

搜索引擎性能提高遇到瓶颈　　评估搜索引擎背后的信息检索技术的先进性，验证互联网环境下大规模数据的信息检索技术的系统有效性，推动检索技术的进步和成果转化，这是信息检索技术评测的主要目标。　　互联网蓬勃兴起使人们摆脱了信息贫乏的桎梏，进入了一个信息极度丰富的时代。比如，今天仅Google能索引到的网页就超过80亿个，图片超过10亿张。当信息的来源不再是问题时，如何快捷准确地获取感兴趣的信息就成为人们关注的主要问题。因此，以Web搜索引擎为代表的Google、百度、Yahoo都取得了很大成功。然而，基于不同的信息检索技术发展而来的搜索引擎系统，对于同一个用户查询其结果往往存在差异，由此产生了比较结果的需求。而基于主观使用感受的评价既不客观也不可靠，因此，必须提出一套客观的评测体系，这种评测不受个人主观感觉的影响，并且所做出的评价在通常情况下都成立。这种评测研究的方法应具有以下特点: 明确的形式化研究任务、公开的训练与测试数据、公开的评测比较。它使得研究之间的比较更加客观，从而让研究者认清各种技术的优劣，起到正确引导研究发展方向的目的。　　　　信息检索技术的现状　　　　提及信息检索，大家往往马上会想起Google、Yahoo等搜索引擎公司。可以说，Web搜索引擎与大家的日常生活最为密切，在某种程度上成了信息检索技术的代称。但作为实用化的系统，搜索引擎一般采用比较成熟的技术，并对稳定性、反映速度、界面等工程化问题更为关注。因此，这些系统并不完全代表信息检索技术的发展水平。　　由于人们对于各种粒度的信息获取的需求不断增长，国外的学术界和企业界对为此投入了相当大的力量进行前瞻性研究，这方面比较有代表性的机构是马萨诸塞大学、卡耐基梅隆大学、伦敦城市大学、IBM、微软研究院、滑铁卢大学等。　　总的来看，早期以Okapi、Smart、查询扩展、相关反馈为代表的内容分析技术，后来以PageRank、HITS为代表的链接分析技术，以及近年来的语言模型，都曾在信息检索发展过程中掀起研究热潮，但近年来却少有激动人心的新技术出现。2005年，TREC在其总结报告指出现在“信息检索性能已进入平台期”。这表明，用户无关的传统信息检索技术已相对成熟。这些技术已经被商用搜索引擎广泛应用，并在一定程度上解决了用户在粗粒度（文档级）上的信息获取需求。　　从TREC来看，现在的任务设置向高精度、细粒度和大规模三个方向倾斜，比较有代表性的有高精度文档检索任务（HARD）、新信息检测任务（Novelty）、问答任务（QA）、TB级检索（Terabyte）等。其中前三个任务要求返回的结果不再是简单的一篇篇文档，而是信息片断，而TB级检索则是把测试集的规模提高到了TB级，其他不变。从评测结果来看，这些任务已经取得了很大进展。但相对于目前的技术而言，这些任务还是相当困难的，与实用还有一段距离。　　总的来看，国外主流的Web检索技术已比较成熟，无论从结果、性能还是稳定性来看，都能提供令人满意的结果，并且已经在人们的日常信息获取中发挥作用。更高精度和更细粒度的检索技术仍处于实验室阶段，但这方面的研究方兴未艾。也许在不远的将来，我们就能看到基于这些新技术的搜索引擎的出现。而推动信息检索技术的不断进步正是信息检索评测索要达到的目标。　　　　信息检索评测　　　　作为扶持科技发展的重要措施之一，863国家高技术研究发展计划一直对国内的研究有着重要影响。而规范化评测作为检验系统性能的可信机制，逐渐成为863关注的重点之一。2003年，国家863计划软硬件主题设立了“中文信息处理和智能人机接口技术评测”专项课题，对包括机器翻译、语音识别、信息检索在内的中文信息处理关键技术进行评测。　　信息检索评测的目的并不仅仅定位为863课题验收或资格认证，而是要了解国内在中文信息检索技术领域的研究现状，验证互联网环境下大规模数据的中文信息检索技术的系统有效性，推动技术进步和成果的应用和转化，成为这个领域技术评价和交流的平台。　　从2003年开始，连续三届信息检索评测在任务设置和组织形式上有所不同，如表1所示。　　　　2003年度评测只有一个子任务，即全文检索核心技术评测，但测试在小规模和大规模两种数据集上进行，目的是更为全面地考察系统的性能。其中小规模数据评测主要侧重于奥运领域文本的检索。检索题目以及标准答案委托中科院软件所人工完成，在精选的数千篇网页上设计了20道检索题目，其中体育类15道。大规模数据采用从国内9个网站采集的约100多万篇网页作为评测数据，规模达到GB级。检索题目由中科院计算所设计，共18道，选题领域广泛，包括政治、经济、文化、体育等诸多方面。对大规模数据集，不可能全部通过人工方式制作出标准答案。因此，这里采用了一种称