基于模糊积分融合方法智能元搜索引擎系统.docVIP

基于模糊积分融合方法智能元搜索引擎系统.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于模糊积分融合方法智能元搜索引擎系统

基于模糊积分融合方法智能元搜索引擎系统   摘要:利用模糊积分融合方法,给出了一个完整的智能元搜索引擎系统。采用智能搜索代理的设计框架,实现系统的高度并发性,使系统具有一定的智能性。结合决策树算法和遗传算法对搜索源的调度作了优化。提出使用模糊积分原理应用于结果集的融合技术,并给出了具体算法。通过在Web上的实际测试,在相同条件下同常用的搜索引擎和其他元搜索引擎分别作了比较,证实了本文所描述的元搜索引擎有着更好的搜索效果。   关键词:元搜索引擎;决策树;遗传算法;模糊积分   中图分类号:TP311.13;TP391.3   文献标识码:A      0引言 ??   WWW中包含着大量的异构文档资源,Web搜索引擎现在已经成为查找Web网页的主要工具。单个搜索引擎的搜索能力不仅受到其判断文档是否符合要求的能力的限制,同时也受到其覆盖网页的数量的限制。单个搜索引擎的搜索能力不超过整个Internet上16%的网页,那些不能建立索引的Web网页大概有五千亿张,这个数量据估计是当前搜索引擎数据库所能够记录的网页数量的500多倍。Internet的巨大容量和Web网页快速变化的内容是导致许多搜索失败的主要原因。   元搜索引擎[1]是一类利用Web搜索引擎作为数据源的特殊的搜索引擎。元搜索引擎与其他信息获取系统的不同之处是控制方式,元搜索引擎不会控制其他搜索引擎怎样处理它所提交的内容,也不会控制搜索引擎返回的信息。它通过允许用户将查询提交给多个搜索引擎来提高搜索结果的一致性和覆盖率。这一过程通常分为3个步骤来进行:1)信息集的选取;2)查询的提交;3)返回结果的合并。??   如何根据查询的问题选取不同的信息集,大量学者对此进行了研究。目前,选择的算法主要有3种[2]:1)CORI(collection retrieval inference network)方法由原有的对文档进行相关性判断的贝叶斯推理网而来;2)GlOSS(Glossary??of??Servers Server)试图解决得到多个匹配源的时候如何选择合适的源,并开发了向量空间搜索版本和布尔变量版本;3)CVV(the CueValidity Variance),注意到了Internet的查询特点,在向量空间算法的基础上对算法作了改进。??   查询的处理上,可以通过元搜索引擎,根据相关反馈来进一步精细搜索的结果。方法是在继续的查询中,交互地从用户处得到一个相关文档的子集。也可以针对搜索引擎只能接受简单的查询,先使用查询者提出的问题构造一个查询本体,该本体与传统的搜索不同的是它是按层次和领域构造的一个上下文本体,随后向若干搜索引擎提交查询,并用此本体检验返回的结果。   在上述查询中主要存在的问题有:1)用户在填写在线查询工具要求的表单时,缺乏足够的信息来完成表单的每一项;2)在线工具仅搜集了部分信息。3)用户仅有它所希望服务的反例。文献[3]针对以上不足,开发了一个Web Agent来更好地处理这些情况,主要解决了两个问题:1)如何和在线服务相结合;2)如何通过本地数据库和知识库产生新的查询替换原查询,以帮助用户提高查准率。??   查询的最终需要将一个按与查询问题相关度排序的结果返回给查询者。由于查询结果是从多个独立的信息集检索出的,因此必然会在结果中出现相同或者相似文档,这些来自于不同信息集的相似和相同结果应该在一个统一的标准上合并为一个最终结果。??      1元搜索引擎MySearch系统框架??   为了改进在Internet上的搜索效率,提高查准率和查全率,我们开发了元搜索引擎MySearch,其结构如图1所示。   用户接口模块是用户和系统之间的接口,负责接收用户的输入并显示输出结果。调度模块根据用户的输入产生搜索查询请求,决定查询哪一个搜索引擎,以及按照不同的搜索引擎的要求修改用户输入的查询请求。结果处理模块从调度模块选择的搜索引擎中获取网页结果,并根据各搜索引擎的返回网页的不同格式提取元搜索引擎需要的内容。排序模块使用融合策略将多个搜索引擎的排序结果合并成一个单独的排序结果。搜索引擎代理与某一个搜索引擎相对应,以执行一些与调度和结果处理有关的子任务。??   系统使用了智能代理(Agent)的框架。Agent是一种设计模式,它模拟了所代表的真实事物的某些行为,对外提供统一的接口,隐藏不同真实事物之间的差别。使用Agent模式的系统具有更大的灵活性,当真实事物的属性或行为发生变化时,系统不需要任何改动,只需要调整Agent的具体行为即可。   Agent的种类,根据其应用环境的不同有很大区别,信息获取领域内的搜索代理的设计已成为今年来研究的热点。例如,替代某个独立实体的代理往往具有一定的目的而且能够做出一定

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档