一种节点加权相似重复XML数据检测算法.docVIP

下载本文档

5
0
约4.75千字
约 9页
2017-12-05 发布于福建
举报
版权申诉

一种节点加权相似重复XML数据检测算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种节点加权相似重复XML数据检测算法

一种节点加权相似重复XML数据检测算法摘要：XML类型的数据成为当前主流的数据形式，本文提出一种检测XML数据相似性的方法，即将XML文档转换成树结构的基础上，对树结构的节点加权，并结合树编辑距离算法。通过XML带权树各属性权值计算的相似度对数据进行粗略匹配与聚集，而在重新聚集的集合中使用树编辑距离算法更直接的进行相似性检测。由于XML数据集合范围的缩小，树编辑距离算法操作的次数减少，从而节省了一定的时间。关键词：XML数据；节点加权；树编辑距离；相似性中图分类号：TP391.1 随着网络快速发展，由于结构化的XML类型数据可扩展且跨平台而成为当前网络数据的主流形式。XML文档的迅速增多并集成统一平台后，会产生不被需要的“脏数据”，而对这些数据的清洗变的更加重要。这些“脏数据”使轻则会使获得的信息不准确，重则获得完全错误的信息。为了使XML数据源中的数据能发挥最正确的作用，清洗平台中的“脏数据”成为一个组要解决的问题。非一致性转换、相似性判定、信息抽取等3方面是当前XML数据清理的主要关注点。如韩恺等人提出的在上下文语义影响下的XML文档的匹配方法[1]，Flesca等人将结构化的XML文档与时间序列、脉冲等内容联系起来进行相似性检测[2]。以上两篇文章关于XML数据清理方法考虑了不同DTD树间的匹配算法，其中文档内容提到较少，部分方法设计思想很好，但实践可行性有限。首先，将一个XML文档转化为一棵树或一个图，然后通过度量这两棵树（图）间的距离来体现XML文档间的相似度。在众多树相似度匹配的研究工作中，普遍接收和采用的既是树编辑距离算法[3-6]。Tai[3]最早将编辑距离的方法应用到检测两颗树间的相似性。以他的理论为基础，提出的一系列树编辑距离算法及相关的改进算法等。 1 相似重复记录信息集成中，数据清洗和提高数据质量是检测和消除集成数据中的相似重复记录中最需要解决的问题之一。相似重复记录的概念是指虽然在现实世界中表述的是同一个实体，但由于拼写错误或表达方式的不同，而导致数据库管理系统不能将其识别为重复的记录。这些重复记录的产生导致决策者在最终决策时由于依据的信息不正确而产生较大的影响。以此为基础，重复记录检测在信息的抽取、转换、加载的过程中显得更加重要。目前研究的主要方向体现在西文、中文字符集的相似重复记录的检测，已有了一定研究。但对于半结构化的XML数据的重复记录检测算法的研究还有待进一步提高。 XML数据在网络中使用的增多以及在数据库中的使用，使得这种数据类型在数据清理中越来越重要。实际多种XML数据被认为不一致，例如拼写错误等导致字符串属性不一致，从而使得此字符串类型数据不一致。另外，实际相同的XML数据由于结构上不同被认为是不同的数据。即使数据源具有相同的DTD结构，属性个数不同、属性值拼写不同均可导致XML数据不一致。 2 树编辑距离在XML数据的ETL中，主要摒弃其中的“脏数据”，也就是检测出相似记录合并，普遍采用的方式即将XML文档转换成树结构，转换的过程中要将树中的节点与数据元素相对应，即节点名为元素标签名。编辑距离方法分为两种，字符串编辑距离算法用判定两个字符串是否相似，而通过树编辑距离方法时大家更清晰的认识到带标号有序树间差异。以下给出与树编辑距离相关的概念定义。 2.1 基本概念目前对于数据相似性的检测主要采用编辑距离的方式，而此方式又分为两种，字符串编辑距离主要用于字符串领域，树编辑距离主要应用于两棵树或图的差异检测，以下给出具体概念描述。（1）字符串编辑距离：定义字符串S1、S2，当S1转换为S2时所需要的编辑操作的最小数目，此转换指单个字符上的转换，而操作主要指插入、修改、删除。此概念普遍应用于字符串的相似性检测。（2）树编辑距离：定义两棵树T1、T2，当T1转换到T2时所需要的书编辑操作的最小代价，此转换指节点的转换。而节点的插入、删除、修改三种操作称为树编辑操作： 1）修改（替换）：节点改变； 2）删除：删除某一节点的同时，将该节点的儿子节点重新定义为兄弟节点并插入到其父节点的子树中； 3）插入：插入某一节点的子节点，而该节点的原部分子节点转换为新插入节点的子节点。 2.2 树编辑距离的相似性检测树编辑距离体现了在两个树转化的过程中树编辑操作的最小次数，而实际编辑操作次数计算方式可以通过映射这一概念来体现，将整个求解过程解释为树之间的映射过程，称为编辑映射。（1）树编辑距离算法：定义两个树T1和T2，在两个树之间建立一映射，直接体现了树与树节点间的对应关系。在树与树之间建立映射需要满足一系列的条件，首先给出两组对应关系属于此映射，分别为（i1，j1）