第10章-XML 检索.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第10章-XML 检索

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * INEX 文档集中简化后的文档schema 示意图 * 由于CAS 查询同时包含结构信息和内容信息,其相关性判断就比非结构化中的相关性判断要复杂得多. INEX 2002 定义了部件覆盖度和主题相关性作为相关性判断的两个方面。 部件覆盖度(component coverage)评价的是返回元素在结构上是否正确,也就是说,其在树中的层次既不太高也不太低。 部件覆盖度分为以下4 种情况。 1.精确覆盖(E)。所需求的信息是部件的主要主题,并且该部件是一个有意义的信息单位。 2.覆盖度太小(S)。所需求的信息是部件的主要主题,但是该部件不是一个有意义(自包含)的信息单位。 3.覆盖度太大(L)。所需求的信息在部件中,但不是主要主题。 * 4.无覆盖(N)。所需求的信息不是部件的主题 主题相关性也有4 个层次:强相关(3)、较相关(2)、弱相关(1)和不相关(0)。 每个部件在覆盖度和主题相关性两个方面都要进行判断, 然后将判断结果组合成一个数字-字母编码。 2S 表示一个比较相关的部件,但是其覆盖度太小。而3E 表示高度相关并具有精确覆盖的一个部件。 理论上说,4 个等级的覆盖度和4 个等级的相关性相组合,则对一个部件的评价有16 种可能,但是实际评价中很多组合并不会出现。 * 4.无覆盖(N)。所需求的信息不是部件的主题 主题相关性也有4 个层次:强相关(3)、较相关(2)、弱相关(1)和不相关(0)。 每个部件在覆盖度和主题相关性两个方面都要进行判断, 然后将判断结果组合成一个数字-字母编码。 2S 表示一个比较相关的部件,但是其覆盖度太小。而3E 表示高度相关并具有精确覆盖的一个部件。 理论上说,4 个等级的覆盖度和4 个等级的相关性相组合,则对一个部件的评价有16 种可能,但是实际评价中很多组合并不会出现。 比如,一个不相关的部件不可能具有精确覆盖度, 所以,编码为3N 的组合是不可能的。 * 相关度—覆盖度组合可以采用如下量化方法: 上述评估机制实际上考虑到了这样一个事实,传统的非结构化检索(参考8.5.1 节)的二值相关性判断对于XML 检索来说是不合适的. 一个2S 部件提供的信息尽管不完整,而且如果没有更多的上下文将很难进行解释,但是它却能部分地回答查询。 * 量化函数Q 并不强制使用二值相关性(相关或不相关),而是通过对部件划分等级来处理部分相关性。 于是,检索结果集合A 中相关部件的数目可以定义为 表10-3 给出了INEX 2002 上两个向量空间系统(参考10.3 节的描述)的运行结果。 * 其中SIMMERGE 的运行结果更好一些,它融合的结构化限制很少而主要依赖于关键词匹配。 然而,SIMMERGE 的平均准确率的中位数也仅仅为0.147,这里的中位数指的是所有主题的平均准确率的中位数。 由于XML 检索更难,所以它的效果往往低于非结构化检索。 XML 检索的目标不仅仅是寻找一篇文档,还必须寻找与查询非常相关的文档片段。 另外,当采用这里介绍的衡量指标时,对XML 检索效果的评分可能会低于非结构化检索,这是因为分级评价方法会降低评价的分值 * 考虑一个系统,假定其返回结果中的第一篇文档的分级相关度为0.6,而二值相关度为1。 那么对于后者,召回率为0.00 时对应的插值正确率为1,而对于前者而言,同一点上插值的正确率为0.6。 表10-4 直接给出了使用结构对检索效果的影响,这些结果是由基于语言模型的检索系统(参考第12 章)在INEX 2003、2004 中CAS 主题的子集上所得到的。 * 表10-4 表明,结构信息能够帮助提高返回结果中排名靠前的元素的准确率,其中P@5 和P@10 都有较大的提高,而P@30 几乎没有提高。 这些结果展示了结构化检索的好处。结构化检索对返回结果增加了一些额外的限制,能够通过结构化限制条件的文档更可能相关. 当然,由于有些相关文档被过滤掉,这种做法可能会损害召回率,但是在面向正确率的任务中,结构化检索更具优势。 * 10.5 XML 检索:以文本为中心与以数据为中心的对比 在本章介绍的结构化检索中,XML 的结构作为一个框架存在,在该框架下,可以对查询中的文本和文档中的文本进行匹配. 这实际上是对以文本为中心的XML(text-centric XML)检索系统进行优化的例子. 尽管文本和结构都很重要,仍然给文本赋予更高的优先级. 具体的实现方式是通过对非结构化检索方法进行调整,使之能够处理额外的结构化限

文档评论(0)

yaocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档