XML文本文档检索技术研究.pdfVIP

下载本文档

7
0
约13.03万字
约 73页
2017-09-16 发布于安徽
举报
版权申诉

XML文本文档检索技术研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

要 XML 具有自描述性、可扩展性，既有内容也有结构信息，XML 文档常见于 Internet 上存在的网页、商业文本、数字图书馆等，XML 文档数量正呈指数级增长。如何有效地解决异构的XML 文档集的检索已变得非常重要。依据内容，XML 文档分为两类：以数据为中心（data-centric ）以文档为中心（document-centric ）。以数据为中心的 XML 文档的检索一般采用数据库方式（DB-style ）查询，如已成为 W3C 标准的XPath XQuery 查询语言；以文本信息为中心的XML 文档多采用信息检索方式（IR-style ）查询。信息检索不同于数据库检索，它是一种非精确的、模糊的部分的匹配过程。 XML 文档是异构的结构与文本内容结合的半结构化数据，针对XML 文档的信息检索不是传统信息检索的简单延伸：带结构信息的XML 文档检索返回XML 元素结点（片断），而传统的信息检索返回整个文档或网页；②传统的文档检索是关键词检索，它没有结构信息，XML 检索不仅有内容约束，还要有结构约束，要求关键词查询结构查询相结合；③XML 检索要求统一的排序机制以适应模糊内容结构（VCAS ）的检索；④XML 检索可以是元素粒度的检索，元素结点的权重不同。本文在研究XML 文本文档检索特性的基础上，分析了VCAS 检索的影响因素；充分利用预设答案结点的逻辑意义完整性，结合模糊抽取的查询表达式，确定检索的最佳查找粒度；设计了VCAS 检索的结果相关性排序模型，以及满足这种排序模型的索引结构，并在VC 环境下实现；在此基础上，进一步根据用户对查询结构的自信程度设计了可配置查询参数的检索结果相关性排序模型。具体而言： (1) XML 文本文档的半结构化特性，为XML 文档元素粒度的检索提供了可能。提出了根据预设的答案结点和用户查询请求的结构，重新设置返回结点的新思想，避免检索粒度过大（浪费用户浏览结果时间）或过小（逻辑意义不完整）的缺陷。 (2) 排序模型扩展了经典的向量空间检索模型，结合XML 文档特点，考虑了文档权重、结点权重及返回结点文本大小的影响。一篇文档被引用得越多，说明其越重要；XML 文档中的结点不仅反映出文档的层次结构关系，还存在有一定的语义，因此不同的结点应该语义权重不同，同时结点的引用及包含关系也反映出结点的引用权重的不同；返回结点的文本越小，用户浏览检索结果的时间越短，越受用户欢迎。 (3) 对于XML 检索，结构的使用可增加查准率，但若用户对结构不熟悉，过 1 多依赖结构信息的检索又将会导致查全率的大大降低。根据用户的查询请求中对结构路径的自信程度，提出了自信结构查询和模糊结构查询的新思想，并设计了可配置权重的VCAS 检索排序模型。 (4) 分别给出了结构记分和关键词记分公式，并根据用户的查询请求中的权重信息，设计了基于答案结点的可配置的XML 模糊内容结构检索排序模型，并进行了实验验证。关键词：XML 检索答案结点权重 CAS 排序 2 Abstract XML is a self-describing and extensible language, which specifies the contents as well as the structure information. There has been an exponential increase in the amount of the XML documents in Web pages on Internet, commercial text repositories, digital library and so on, and naturally, efficient information retrieval from these great