信息检索中文版41-45.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息检索中文版41-45

241 元搜索引擎(4) 为元搜索引擎增加复杂细节 有时对于给定的一个搜索,元搜索引擎只需要调用部分搜索引擎,而不是其连接的所有搜索引擎。(数据库可选性) 可控制元搜索引擎其下每个搜索引擎检索文档的数量(文档可选性) 排序所有返回文档时,相关文档排在非相关文档之前。 自动构造和维护元搜索引擎 242 元搜索引擎(5) 数据库选择问题 当本地数据库数量庞大时可以必要的选择少数潜在有效的数据库代替全部数据库,这样做可以:降低网络传输消耗 避免本地资源浪费 提高检索效率 243 元搜索引擎(6) 潜在可用数据库:包含可用文档的数据库 潜在可用文档: 其与搜索内容的整体相似性高于边界值 其与搜索内容的整体相似性低于某个极大值m 为执行数据库可选性需预先搜集每个数据库相关知识 以上称为数据库代理 244 元搜索引擎(7) 文档选择性的问题 对于每个可选本地数据库,有效选择潜在可用文档。 检索全部潜在可用文档同时极小化对无用文档的检索。 从整体相似性边界值到局部相似性边界值 设d为全体文档:Gsim(q,d)GT Gsim为整体相似性函数,GT为整体边界值 设在本地数据库DBk中搜索d,则有Lsim(q,d)LTk LTk是最大的局部边界值 由Gsim(q,d)GT -Lsim(q,d)LTk 245 元搜索引擎(8) 结果排序问题 将从多个数据源返回的文档整合进一个序列表里 难点:本地文档相关性不可用或文档无法比较。、 解决方案:生成全局相似性,然后再进行排序。 246 元搜索引擎(9) 一个好的元搜索引擎应具备如下条件: 检索效率:达到按不同数据源检索和相同数据源检索效率接近。 效果:最优化检索过程 结论: 仅选择有效搜索引擎 仅检索和传递有效文档 根据文档相关度排序 247 元搜索引擎(10) 主要资源问题: 局部搜索引擎分治 设计自主化: 自行设计决定局部搜索引擎-接口,排序算法 维护自动化 自行决定何时升级系统,针对哪个组件进行升级,如何升级。 自行决定何时更新数据库索引。 248 元搜索引擎(11) 分治性可以导致多样性 多样性存在于局部搜索引擎中 索引方法: 去掉停顿词—保留停顿词 执行去词干化-不执行 使用全文本索引—使用局部文本索引 使用锚文本-不使用 249 元搜索引擎(12) 文档/检索词权重方案 仅使用tf 使用tf*idf 使用或不使用标签信息(将词放入标签尤为重要) 相似性函数 点乘或余弦函数 扩展启发函数 合并从链接中导出的重要信息 250 元搜索引擎(13) 文档数据库 不同的范围级别 不同的文档集合等级 文档版本:同一文档的不同版本会被不同的搜索引擎建立索引 结果报告:可提供或不提供关于大量返回文档的排序。 251 元搜索引擎(14) 分治性与相异性带来的影响 对于数据库: 相异性文档数据库造成了数据库需求增巨。 方法选择取决于中央代理数据库的可用性。 对于文档选择性: 选择局部文档需要整体测量方法。 结果排序:计算局部文档相似度需客服不可比性及不可用性。 252 数据库可选性:基本思想 目标:针对每个用户检索指出潜在可用数据库 一般方法: 使用用户代理指定内容近似的相关数据库 针对每个查询使用这些代理选择数据库 253 多样化的解决方案: 不同类型的代理程序 通过不同算法执行代理程序 原始方法: 选择全部搜索引擎。(举例:元爬虫) 粗加工样本: 搜索引擎的内容被描绘成一些词或短语。这些词或短语是与检索词相匹配的关键字。 搜索引擎内容相关的的每个词都是用精密统计信息表述,同时具有许多方法使用信息以选择搜索引擎。 基于学习的方法: 通过训练和用户查询学习搜索引擎相关知识。、 254 粗加工样本方法(1) 标准样本: 一些词或短语应使用正确格式 经常需要手工结构 一般备注: 可以适当为特殊需求数据库工作 在存储需求中可升级 当需求描述粗糙时可能导致结果不准确 255 粗加工样本方法(2) 例子一:ALTWEB 样本具有固定格式:地址包含PerI语言的文件 模板类型:文档 标题:PerI 描述:涉及PerI程序语言,包括本地化超文本,PerI手册,关于超文本的问答。 关键字:PerI,PerI问答,PerI程序语言 用户检索可以匹配一个或多个部分。 256 粗加工样本方法(3) 例子2 样本具有文字网络基本结构:地址包含由国家组成的目录 主题:国家 信息类型:元素 用户检索在匹配前先转化成相似结构 257 粗加工样本方法(4) 一个搜索引擎的样本是从搜索引擎网页接口和网页接口回溯链接的网页相关文本中提取的。 每个用户检索被扩展到许多个检索,每个符合主题的扩展检索都与原始检索相关。一个现存的正常搜索引擎即被使用 针对每个新的搜索,指出并显示三个最好的搜索引擎 用户选择已经显示的搜索引擎进行使用 260 统计样

文档评论(0)

kaiss + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档