一种新的基于向量空间的XML文档相似性度量方法及搜索技术.docxVIP

下载本文档

0
0
约2.34万字
约 35页
2019-08-30 发布于江苏
举报
版权申诉

一种新的基于向量空间的XML文档相似性度量方法及搜索技术.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

山东大学硕士学位论文第1章绪论 1．1 课题研究背景 1．1．1 XML数据表示随着互联网技术的发展，Hn皿，(Hypert嘲Mafkl|p L锄醐超文本标记语言)在数据表示方面无法应对W曲数据的复杂化、多样化、智能化，于是高容量、高信息量、高效率便成为了网络信息传输技术发展的追求。可扩展的标记语言Ⅺ咀。(ext∞sible M￡溅up L锄guage)的出现正好满足这一个需求。以 Ⅺ咀。为基础的新一代聃删环境是直接面对w曲数据的，不仅可以很好的兼容原有的W曲应用，而且可以更好的实现w曲中的信息共享与交换。在数据表示方面．Ⅺ皿。较mM．有更大的灵活性。它不仅可以用来标记无结构的文本信息，还可以标记高度结构化的规则数据(如数据库中的数据1．同时，这些灵活性也给Ⅺ咀。查询处理带来了新的问题． 1．1．2 XML近似搜索技术的出现对于较为结构化的数据。利用xML查询语言来查询xML数据是一种很好的解决方案．研究者们已提出了查询处理x咖L数据的各种方法．相比之下，在处理非结构化或较少结构化的舳文档或来自不同信息源的异构 Ⅺ咀，数据时，用户往往希望能发现与查询相关(但不精确匹配)的信息。此时，现有的)。咀。查询语言就不再适用，处理这些数据(文档)需要综合数据库和信息检索两方面的技术。在搜索异构的ⅪⅢ。信息源时还需要研究面向Ⅺ帆文档的近似搜索技术。在xⅣ几文档查询时，我们把发现与查询相关、但不精确匹配的信息，叫做 Ⅺ咀，文档的近似搜索。)m几文档的近似搜索区别于)。皿。数据的查询，Ⅺ沮。数据的查询是对用户要求查询数据的精确匹配。而xML文档的近似搜索。不仅查询用户要求查询的数据，还是查询与用户查询相关的数据。随着xML数据的增加，Ⅺ咀。数据搜索技术成为一个关键问题。Ⅺ皿，数据查询搜索技术是Ⅺ咀。技术研究的重要内容。虽然Ⅺ沮。查询技术己经取得一些研究成果，但由于x池数据自身的特点，以及它与传统数据模型的差山东大学硕士学位论文异，Ⅺ咀。查询技术在理论上和实现上都还存在很多难点。本文对Ⅺ皿数据搜索技术进行深入研究。 1．2 相关研究现状 1．2．1 XML文档的相似度测度作为)m几文档的近似搜索的基础，首先要能够准确地度量查询与文档、文档与文档间的相关(似)性．传统的信息检索技术利用向量空间模型来表示一个文档，并利用代表文档的空间向量间的距离来度量两个文档间的相关程度．尽管我们也可以使用类似的方法来计算Ⅺ沮。文档间的相似程度。一般地，一个)m几文档可以模型化为一棵树或一个图，两个Ⅻ仉文档间的相似度可以用这两棵树(图)间的距离来度量。在Ⅺ儿出现之前，已有许多工作睁101研究了两棵树(图)间的相似测度的问题，其中最自然和应用最广的测度是树的编辑距离．1fai嘲最早提出了利用编辑距离来度量两棵树(图)间的差异．在T缸的工作的基础上，zh肌g和Sh嬲ha川等提出了计算两棵树间的各种编辑距离的算法。这种传统的基于关键词文本检索方法形成了巨大的特征空间，而且由于基于编辑距离的方法是以一种固定的方式描述结构单元之间的相互关系，它在不同数据集上的表现有较大差异。 2000年，Ⅵ等人提出了一种用于半结构化文档分类的扩展向量模型。它采用嵌套定义的向量来描述文档元素，并在此模型基础上利用概率统计方法进行文档分类‘361。 2002年，Flesca等人将结构信息看作时序关系，采用时序分析的方法进行 xML文档的结构相似性计算07l。 2003年，zh肌g等人提出了一种采用编辑距离进行ⅪⅥL文档的结构相似性计算的方法网。 2004年，D肌0yer等人深入研究了利用贝叶斯网络模型进行半结构化文档分类的方法(3鲫。这些方法要么是针对特定的挖掘技术(如自动分类)，缺乏可推广性和通用性；要么仅研究文档结构关系，而没有考虑作为Ⅺv几文档主体的文本内容：有 2 山东大学硕士学位论文些方法虽然想法新颖、独特，但实际效果却很有限。 1．2．2 XML近似搜索技术研究现状 Ⅺ沮。查询方法一般可分为三类，即关系查询、文档查询和浏览查询。其中，关系查询就是通常称作的字段查询，以及建立在字段查询基础上的布尔查询：文档查询类似于通常称作的全文检索；浏览查询是针对xML文档中的 “序”所进行的查询，序是指xML文档中标签与标签之间的等级关系，以及标签之间的先后顺序。其中，文档查询又有精确匹配查询和近似搜索(不精确匹配查询)。)0沮。文档的近似搜索不仅要查询与关键字相同的文档，还要查询与关键字相关的文档的内容。近年来，国内外研究者对Ⅺv几文档等半结构化数据的分析处理给予了越来越多的关注。他们有的侧重于半结构化数据的模型以及存储与查询，如 St锄fbrd大学的Lore项目；有的侧重于半结构化数据集成：还有的