分布式搜索引擎的模型综述.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分布式搜索引擎的模型综述

分布式搜索引擎的模型综述   摘 要 本文综述了分布式搜索引擎的模型、结构和查询方法,并讨论了搜索引擎的评价指标。从搜索引擎的离线处理和在线处理讨论了搜索引擎的基本模块,在线查询过程速度决定了搜索引擎性能的关键因素;从分布式搜索引擎的模型上划分,搜索引擎包含四个主要子系统:网页爬虫系统,索引构建系统、检索系统和日志分析系统;倒排索引结构是以词典(dictionary)和倒排文件(inverted file)组成,分为文档编号递增排序和词频(或影响力)得分递减排序。然后讨论了当前搜索引擎典型的三类查询处理策略,并比较各自适应的条件。最后,综述评价搜索引擎的两个重要指标: 查询效率和查询结果的质量,并列举定量评价公式。 中国论文网 /8/view-7212352.htm   关键词 分布式索引; 搜索引擎;倒排索引;查询处理   中图法分类号 TP393 文献标识码 A   Review on Distributed Search Engine Model   QIAN Libing, JI Zhenzhou   1(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China)   Abstract This paper reviews the model,structure and search method for distributed search engine, and then discusses the evaluation of search engines. From the offline processing and online processing, the basic modules of search engine are discussed. The essential factor of search engine performance is determined by the online search processing. Divided from the distributed search engine model, the search engine consists of four main subsystems: Web crawler system, building index system, retrieval system and log analyzing system. The inverted index is divided into document ids and term frequency(or influence) sequence, which is composed of the dictionary structure and inverted file. Then the paper discusses the typically three types strategies of query processing for the current search eninge, and compares their adaptiation conditions. Finally, the two improtant indicators of evaluation of search engines are reviewed and enumerated the quantitative evaluation formula, which are query efficiently and quality of results, respectively.   Key words Distributed Indexing; Search Engine;,Retrieval Index; Query Processing   0 引 言   随着互联网业务的快速发展,搜索已成为人们学习和生活中的必需工具。面对日益激增的网络数据和复杂的用户需求,强大的搜索能力将成为推动互联网发展的关键要素。   在工业界分布式引擎得到广泛应用,Google、Yahoo!、百度、阿里巴巴等巨大网络引擎公司,都在充分有效地利用分布式搜索架构,以实现分布式引擎的稳定、及拓展运营。   分布式搜索引擎的架构方面,文献[1]指出实现分散化、可扩展和高效的分布式搜索引擎的可行性。文献[2]提出任务并行和数据并行的两种模式架构,能够提高系统吞吐量,实现计算、存储与通信资源的有效利用。文献[3]提出了分布式搜索引擎的成本模型,并指出

文档评论(0)

langhua2016 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档