元搜索引擎1.pptVIP

下载本文档

3
0
约3.67千字
约 31页
2015-08-22 发布于广东
举报
版权申诉

元搜索引擎1.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

元搜索引擎用户通过人机交互向元搜索引擎提出一个查询请求。元搜索引擎分析查询请求，从中提取查询内容、关键词及逻辑运算符、和请求的搜索引擎。元搜索引擎利用全局/局部指令字典，将检索指令翻译为各个独立搜索引擎所对应的检索指令，并进行检索。各个独立搜索引擎将检索结果发回到元搜索引擎，元搜索引擎利用全局/局部格式字典，将局部结果转换为全局局部结果格式，然后对所有结果进行综合处理，生成最后结果反馈给用户。 p170 元搜索引擎的关键技术 1成员搜索引擎的选择大家先思考一下可能的选择方式（1）固定策略（2）用户自己选择。提供系统中可用的搜索引擎的列表让用户自己来选择。（3）系统自动选择 ----简单描述法 ----统计法 ----基于学习的方法简单描述法对成员搜索引擎的内容特征通过一些关键词或者关键段落进行描述。选择时，首先将检索提问式与成员搜索引擎的描述进行匹配，按照成员搜索引擎与该提问式的相似度进行比较，从中选择排名比较靠前的引擎。专业引擎。统计的方法：统计方法需要借助成员引擎采集和标引过程中得到和积累的大量统计信息，常见的做法是：提取成员引擎中的每一个关键词的统计信息，例如词频、逆文档频率、平均权值等，以此为依据来判断各个成员引擎采集网络信息的侧重点与内容，从而确定它们对不同主题（或类型）查询的有效性。基于学习的方法基于学习的方法主要是通过对以往检索经验的积累与学习，来获取各个成员引擎最可能返回与何种检索提问相关的文档的知识，并据此经验性知识来预测各个成员引擎对新查询的有用性。具体的学习策略分为： 1.静态学习法：指系统人员在引擎投入使用前，通过训练提问式获取关于各个成员引擎收录内容的知识 2.动态学习法：指在引擎投入实际使用后，通过对用户检索提问反馈结果的跟踪与学习，来不断积累和更新成员引擎收录内容的相关知识 3.混合学习法：兼用静态学习和动态学习两种方式来获取上述的相关知识 2提问式转换依照元搜索引擎的工作原理，当它接受用户的一个查询请求之后，面临的又一个重要问题是：如何将此查询提问式进行映射（或转换）（Query Translation），以便分发给不同的成员引擎进行检索处理。对于提问式的映射（或转换）处理，元搜索引擎设计的转换机制还都较为简单，一般以支持、兼顾各成员引擎的基本检索功能为主，而对一些成员引擎提供的高级检索功能，转换后的提问式通常予以忽略，并不给予支持。映射过程中产生的信息缺损问题有些元搜索引擎还考虑采用一定的方法予以弥补：搜索前弥补策略和搜索后弥补策略。搜索前弥补：如果用户在元查询中选择了“stemming”选项，但对应的独立引擎不支持“stemming”选项，直接将元搜索请求提交给该独立引擎的话，将导致用户查询意愿的改变。在这种情况下，搜索前弥补策略的做法是：首先对元搜索请求的“stemming”选项进行处理，扩充用户的查询请求后，再送交给独立引擎检索，使得从该引擎返回的结果符合用户的要求。搜索后弥补策略主要关注于对各独引擎返回结果的后处理和优化上。 3检索结果的选择结果信息的整合需要考虑的是如何决定从选定的成员引擎中分别返回哪些相关文档。结果数量的选择 A 不限定结果数量：将经过挑选的成员引擎的所有检索结果都返回到元搜索引擎 B限定结果数量 -------直接限定从每个成员引擎返回的检索结果的数量 -------对于每个成员引擎，确定一个本地相关性阈值，只有超过本地相关性阈值的文档才作为检索结果返回。具体方法（1）用户决定法：元搜索引擎让用户来决定从每个成员引擎返回的检索结果数量。这种方法比较适用于成员引擎数量较少、用户对成员引擎比较熟悉的情况。如果成员引擎数量较多，这种方法将会出现严重问题，因为，在这种情况下，用户很难确定从每个成员引擎所取回的适宜文档数目，通常只能为所有成员引擎指定一个同样的取回结果文档的数目。例如，如果元搜索引擎要从n个成员引擎取回m个文档的话，从每个成员引擎取回的文档数量大约为m/n个。（2）加权法：加权法的出发点是：从每个成员引擎所取回的相关文档数量取决于每个成员引擎相对于其他成员引擎的权值，从而保证能从权值较高的成员引擎中取回较多的文档。 (3)基于学习法：基于学习法的思想是：从每个成员引擎返回结果的数量取决于以往对这个成员引擎进行检索所获得的经验。具体分为静态学习、动态学习和混合学习三种类型。 (4)计算全局相关性的方法：通常，每个成员引擎采用的结果相似度计算函数和元搜索引擎采用的结果相似度计算函数是不同的，这就会出现如下一种情况：某搜索结果在成员引擎中的本地相关度值较低，而在元搜索引擎中的全局相关度值却很高。如此，如果只从成员引擎中取回本地相关度值较高的文档，可能会错过一些相关度较高的潜在有用文档。