搜索引擎关键技术论文.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
搜索引擎关键技术论文 浅谈元搜索引擎的关键技术 摘 要:元搜索引擎可以很好解决传统搜索引擎的覆盖率不全的问题,并且可以综合多个传统搜索引擎的优势。专门建立一个基于多个传统的搜索引擎的结果集之上的搜索引擎,以提高搜索服务质量,元搜索引擎通过整合多个成员搜索引擎的搜索结果来提供自己的搜索结果,在这个过程中就涉及到查询转换、成员搜索引擎调度、搜索结果排序合成等一系列关键技术。 关键词:元搜索引擎;查询转换;引擎调度 中图分类号:TP393 元搜索引擎又称集合型搜索引擎。它并没有自己的索引数据库,也没有抓取机器人,仅仅只是充当中间代理的作用。元搜索引擎将多个单一的搜索引擎集成在一起,提供统一的检索界面,将用户的检索请求分别提交给多个独立的搜索引擎,同时检索多个数据库;并根据多个独立搜索引擎的检索结果进行二次加工,如对检索结果去重、排序等;然后再输出给用户由于元搜索引擎整合了多个搜索引擎的搜索结果。元搜索引擎通常具有比传统的搜索引擎更大的信息覆盖面,可以有效的提高查全率。 元搜索引擎可以划分为三个模块部分:用户请求端、后台业务逻辑处理模块、结果重新显示模块。用户请求端负责与用户的交互,接收用户的请求,并把请求传至后台的服务模块处理。用户请求端还负责处理用户的个性化配置,如配置成员搜索引擎的信任权重值等等用户个性化配置。后台业务逻辑处理模块的主要功能是负责将用户的请求转化为成员搜索引擎所能理解的模式,并在接收成员搜索引擎所返回来的结果后,对搜索结果进行解析、提取、排序合成等处理。结果显示主要负责最终结果的显示,同时提供一些额外的效果以提供更好的用户体验,如将用户检索关键字分词后高亮显示等等[1]。 元搜索引擎虽然可以方便用户同时检索多个搜索引擎,但是提高查全率的同时,也引入了新的问题:对于特定的用户搜索,有的成员搜索引擎有较高的准确率,而有的则具有极低的准确率,即成员搜索引擎的有效性存在较大的差异。如果排序合成算法处理的不当,则容易淹没满足用户检索需求的搜索结果。另外元搜索引擎需要同时向多个成员搜索引擎发送请求并获取检索结果,然后再对搜索结果进行整合,增加了时间损耗,也增加了用户的检索等待时间。所以如何解决好这两个问题,是构建一个成功的元搜索引擎的关键。由于元搜索引擎的结果集成了多个成员搜索引擎的搜索结果,信息量通常比较大。用户通常不会对所有的结果进行遍历,而是仅仅关注前几条或者前几页的信息。如何将用户需要的结果尽可能的排在前面就显得尤为重要。元搜索引擎的排序合成正是完成对多个成员搜索引擎的搜索结果进行整合的模块,排序合成算法的优劣将直接影响到元搜索引擎的效率。因此如何对成员搜索引擎的结果进行有效的整合成为元搜索引擎的核心问题。 1 元搜索引擎关键技术 元搜索引擎通过整合多个成员搜索引擎的搜索结果来提供自己的搜索结果,在这个过程中就涉及到查询转换、成员搜索引擎调度、搜索结果排序合成等一系列关键技术[25,26]。 1.1 查询转换 由于不同的成员搜索引擎对于查询的格式要求往往是不一样的,因此元搜索引擎系统在向成员搜索引擎发送检索请求之前,先要将用户输入的检索关键字转换为各个成员搜索引擎所规定的格式。例如编码的转换、特殊字符的处理等。 除了提供最基本的查询转换之外,有的元搜索引擎为了提高查询的准确率,还提供了一些扩展的操作符和查询语法以扩充用户的查询请求。这通常需要预先对用户的检索关键字进行处理,然后根据预定义的操作符和查询语法的格式,将用户的检索关键字转换为新的检索关键字。例如有的搜索引擎提供了“与”和“或”操作。为了提供更加专门化的检索,有的搜索引擎还会对用户的检索关键字进行分词,然后根据每个分词单元所属的类别的信息,来确定所要调用的成员搜索引擎[1]。 1.2 成员搜索引擎调度 每个搜索引擎所擅长的领域通常有所不同,例如百度擅长中文搜索,谷歌和必应擅长英文搜索。而且每多调用一个成员搜索都会消耗一定的系统资源,同时也会增加查询延迟,增加用户的等待时间。因此需要选择合适的成员搜索引擎来获取满足用户检索需求的搜索结果。 目前常用的成员搜索引擎调度有两种:一种是由用户自定义所要调用的成员搜索引擎。这种方式的优点是给予了用户较大限度的选择权,同时也免去了系统计算成员搜索引擎调度信息的损耗。但是每当用户检索不同类别的关键字时,往往需要重新指定成员搜索引擎。但是大部分互联网用户通常不知道自己所检索的关键字应该选择那些成员搜索引擎,因此具有较差的用户体验。另外一种是由系统决定选择那些成员搜索引擎。这种方式的优点是用户检索时不必预先指定成员搜索引擎,具有较好的用户体验。但是系统往往需要大量的计算以确定每次用户搜索所需要调度的成员搜索引

文档评论(0)

软件开发 + 关注
官方认证
服务提供商

十余年的软件行业耕耘,可承接各类需求

认证主体深圳鼎云文化有限公司
IP属地陕西
统一社会信用代码/组织机构代码
91440300MA5G24KH9F

1亿VIP精品文档

相关文档