XML文本文档检索.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XML文本文档检索 吴劲,陈泽琳 (华南理工大学计算机科学与工程学院,广州510640) E·mail:gdwujing@21cn.com;cszlchcn@scut·edu·c!rl edu.cii www.scut http:ll 摘薹:XML(eXtensible MaflatpLanguage)日益成为互联网上数据表现和数据交换的标准,而在浩瀚的XML组织的 信息中进行有效的检索也就成为需妻解决的问题.本文作者在传统文本文档检索技术的基础上,提出了一种新的面向 XML文本文档的检索模型,并通过一定的检索实验,验证了模型的有效性. 关键词:XML文本文档;文档检索;信息检索:部分匹配;结构相关 1介绍 XML代表eXtensible Markup 它的最大特点就是其可扩展的特性:它允许用户自己定义标签,是~种完全面向语义的标记语言,突出对信息语义的描述能 力:同时,通过标签之间的嵌套,XML提供了一个将大量信息组织成为具有确定意义的整体鲒构的功能,这种具有确定意 义的整体就是xML文档,XML文档是信息的容器。 另一方面,自然语言(文本)一直以来是人们描述与交换信息的基本手段,基于XML强大的语义描述能力,在未来韵 互联网世界中将出现大量使用XML组织的文本信息。这里将以文本信息为主要内容的XML文档称为XML文本文档。同时, 将XML文本文档中标签之间的嵌套关系称为XML文本文档的结构。显而易见,XML文本文档的语义信息同时存在于文档 的文本与结构之中., 经过多年的研究与发展,该领域积累了大量处理文本信息检索的技术。本文以传统的信息检索技术(文本信息检索技术)为 基础,提出了一种新的面向XML文本文档的检索模型。 2相关研究 查询语言以及相应的检索方法,他们通过在XML.QL中加入相似比较的操作,以提供非精确的匹配,并由此计算文档信息 与提交查询的相关程度。 Yoshihiko 信息是不可能或者是难于实现的,作者通过限定文档结构信息的索引,又限定提交查询中的结构信息实现了一个适用于专业 文档检索需要的XML文本文档检索系统。 文本信息分析,得出相关概率。在文中,作者分析了XML的应用环境,在XQL的基础上加入四个信息检索的特征:权重 计算和排序、面向相关的检索、语义相对和模糊谓词,定义出XIRQL.并在此基础上给出检索处理过程的形式化描述,与 YoshihikoHayashi的检索系统相似,NorbcrtFullr提出的XML文本文档检索的方式也是根据一定的原则,限制索引的文档结 构信息以及查询中的结构信息。 上面适应XML文本文档检索的检索方式或者检索系统都在检索的过程中引入了文档的结构信息——查询中引入结构信 作者介绍;吴劲.1975年生.男,磺士.主要研究领域为信息检索.数据库,计茸机协同t作。陈泽琳.1962年生,女.硕士,副教授,主 要研究方向为计算机支持的协同工作,软件项目管理等。 XML文本文档检索165 息:检索过程中匹配结构信息——有效地提高了XML文本文档检索的准确性。 m在J.面的检索方式或者检索系统中,对提交查询中的结构信息的匹配都是一种“完全匹配”——查询中的父子关系到 文档中的祖先一后代关系上的映射关系。但我们知道.不同的人对相同的信息有不同的看法,则对于相同的信息·不同的信 息提供者对信息的组织方式是不同的,即文档的结构是不同的。所以“完全匹配”会产生两种情况:(1)不“完全匹配”提 t即没有“完全匹配”的文档t同 交查询结构要求的文档并不意味着不包含用户所需要的信息;(2)检索的结果可能为0 样,并不意味着不存在用户所需要的信息。所以,在面对XML文本文档检索的时候,需要引入“部分匹配”——查询中的 褪先.后代关系到文档中的祖先一后代关系上的映射关系。 首先,“部分匹配”意味着提交查询中信息结构

文档评论(0)

whl005 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档