元搜索引擎得查询优化研究.ppt

下载文档 降价啦

0
0
约2.74千字
约 20页
2018-05-29 发布于浙江
举报
版权申诉
保障服务

元搜索引擎得查询优化研究.ppt

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

元搜索引擎得查询优化研究

元搜索引擎的查询优化研究一、元搜索引擎概述概念：元搜索引擎将现有的多个搜索引擎看成一个整体，为用户提供一个统一的查询界面，用户的查询请求由元搜索引擎根据知识库中的信息，转换为多个搜索引擎所能识别的格式，然后分别发送给调用的各独立搜索引擎，由这些搜索引擎完成实际的信息检索，最后元搜索引擎再把各搜索引擎返回的结果收集起来，进行比较分析，剔除冗余信息，以一定的格式返回给用户。元搜索引擎的体系结构元搜索引擎主要由三部分组成：请求提交代理；检索接口代理；结果显示代理。元搜索引擎的体系结构元搜索引擎的评价指标：独立搜索引擎的调度策略；是否提供足够的检索选项；对搜索结果的处理能力；相关度评价二、Agent的基本概念 Agent技术是近年来研究的一个热点，它是从人工智能的一个分支DAI(Distributed Artificial Intelligence)发展起来的，从20世纪80年代才开始研究，直到20世纪90年代中才得到广泛的认同． Agent一词一直被翻译成“代理”，也有人把它翻译为“智能代理”，广义上它是指具有智能的任何实体，包括人类、智能硬件(如机器人)和智能软件。 Agent的结构一般认为一个可以在软件环境中进行智能活动的Agent，由四大要素组成，即行为(behavor)、资源(resource)、意念(intention)和愿望(desire)，分别描述了Agent的活动特性、信息特性、决策特性和动机特性。 Multi-Agent系统的基本结构 ①上下级结构 ②对等结构大大加快了信息流动的效率。同时，由于消除了高层节点间的依赖，从而提高了系统的健壮性。这种系统带来的问题是信息的流动显著增加，信息控制变得更为复杂。 ③分层结构分层结构综合了上述两种结构的特点，既包含了上下级间的控制关系，又可以建立相关Agent之间的直接联系，提高了信息交流的灵活性。三、Web挖掘技术 Web挖掘的概念：在已知数据样本的基础上，通过归纳学习、机器学习、统计分析等方法得到数据对象间的内在特性，据此采用信息过滤技术在网络中提取用户感兴趣的信息或者更高层次的知识和规律，简单的说，就是利用数据挖掘技术从Web文档和Web活动中发现、抽取人们感兴趣的、潜在的有用模式和隐藏的信息。 Web挖掘的研究内容 ①Web内容挖掘：指从Web文档中发现有用信息的过程 ②Web结构挖掘：Web结构挖掘的对象是Web本身的超链接，即对Web文档的结构进行挖掘。 ③Web使用挖掘：也称Web日志挖掘，是从Web访问日志中抽取知识的过程。四、检索结果合成用户浏览行为与兴趣间的关系从心理学角度来讲，人的行为可以反映人的兴趣和目的。用户的生理行为、显著行为和间接行为的特点决定了各自在用户兴趣度估计中的地位。相比较而言，用户的间接行为种类很多，而且间接行为的发生伴随着用户的每一次浏览，数据非常丰富，加之间接行为与用户兴趣的关系可以科学量化，有利于对兴趣度进行估计。因此，间接行为是用户兴趣度估计的主要来源。基于用户兴趣的检索结果排序算法 TSPR算法考虑了页面的主题性，同一网页的不同主题有不同的页面等级值。不同的用户需求不同，感兴趣的领域也不同，如果将用户的兴趣与TSPR算法相结合，得到一种个性化的，能反映用户兴趣的检索结果排序算法并以此对检索结果进行排序，将能有效地改善检索性能。网页P的页面等级值用表示，设用户的查询关键词为q：以值为依据对检索结果进行排序，该过程具体由检索结果Agent完成。无效链接检查访问使用搜索引擎查询到的结果时，经常会遇到“找不到该页错误(HTTP 404 Error)”，解决此问题的方法一般有两种： ①及时更新索引数据库； ②检测返回结果中的链接。据统计学规律表明，75％的用户只会在返回的前25个链接中查看。因此，采用一个快速的“死链接”检查算法：抽取每个引擎返回的前25个结果中日期较早的网页进行检测，对每个链接发送HEAD请求，判断响应代码，如果是“404 Not Found”，则删除此链接，这样检测的网页范围可以大大减少。查询结果去重简单的判断重复结果的方法： (1)如果两个查询结果的URL完全相同，可以肯定是重复结果； (2)如果两个URL只是最后的文件名不同，其它部分相同(例如“http://server/”和“http://server/index.html”)，则认为是相同结果； (3)如果URL完全不同，但标题和摘要相同，则认为是相同的； (4)如果两个查询结果的URL完全不同，但标题和