- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
XML重复对象检测系统的设计与实现-计算机软件与理论专业论文
I
I
摘 要
随着 Internet 和信息技术的高速发展,XML 文档作为数据存储介质应用范围越来 越广泛,XML 数据的重复元素检测问题已经引起了从事数据库和 Internet 应用等研究 人员的大量关注。而 XML 数据结构的多样性,给 XML 元素相似性判断带来很大困难。 为了有效的清除 XML 数据中的重复元素,研究了 XML 重复元素识别规则,设计和实 现了重复 XML 元素检测系统。
研究了重复 XML 元素判定标准、相似字符串识别和 XML 元素相似度计算等问题, 分析出 XML 重复元素检测的关键是如何有效地处理结构多样性的问题和如何处理父、 子元素间的依赖关系,并设计实现了重复 XML 元素检测系统。检测系统主要由文档预 处理模块、相似字符串识别模块和元素相似度计算模块组成。
在检测系统实现方面,给出了一种自顶向下、多重过滤的检测方法。通过对 XML 数据存储结构的分析,给出了重复 XML 元素对象的定义;通过文档预处理在一定程度 上解决了 XML 结构多样性的问题;通过设计多种过滤条件,有效的降低了检测字符串 相似度和 XML 元素相似度的计算量;通过自顶向下的遍历解决了 XML 元素父子元素 间的依赖关系。设计实现了 Dirty XML Generator(DXG)工具,用来生成实验数据。 为了说明检测系统的正确性和过滤条件的有效性,通过 DXG 工具往 XML 数据内 引入了结构错误和字符串错误两种类型的脏数据,对每个过滤条件都进行了单独的分 析,对检测系统的正确性和效率也进行了分析。最终说明了所有过滤条件都是有效而
且高效的,检测系统检测的结果也和预先引入的脏数据一致。
关键字:重复元素检测系统, 可扩展标记语言, 相似字符串, 多重过滤, 自顶向下
II
II
Abstract
With the rapid development of the Internet and information technology, the scope of application of XML documents as a data storage medium are more widely, great attentions have been paid to the problem of detecting duplicate XML elements. And the diversity of XML document’s structure has caused great difficulties to the similar detection of the XML elements. To effectively remove duplicate elements in XML documents, recognition rules of duplicate elements had been studied, and a duplicate XML element detection system had been designed and implemented.
The criteria of repetitive elements, identifying similar strings and similarity calculation of XML elements had been studied. And concluded that the key problem of detecting duplicate XML elements is how to effectively deal with diversity issues and how to find the complex dependencies between the parent and the sub-elements, and a duplicate XML element detection system had been designed and implemented. The detection system consists of document pre-processing module, the module of identifying similar strings and the module of the similarity calculation of XML elements.
In the field of completing the detection system, a top-down, multi-detection filter detection
您可能关注的文档
- Wnt信号通路抑制蛋白Chibby在喉癌发生中的作用-耳鼻咽喉科学专业论文.docx
- Wnt信号通路调控肺腺癌干细胞特性的分子机制-肿瘤学专业论文.docx
- WO3及其复合纳米材料的制备与气敏性能研究-无机化学专业论文.docx
- WO3石墨烯复合材料的可控合成及室温气敏性能研究-材料学专业论文.docx
- WO3的水热诱导合成及其应用研究-凝聚态物理专业论文.docx
- Wording 统一字典系统关键字查询模块的研究与实现-软件工程专业论文.docx
- WO3纳米线-NO2吸附体系电子性能及其Ti掺杂的理论研究-微电子学与固体电子学专业论文.docx
- WOMIMO系统中鲁棒干扰对齐方法的研究-信息与通信工程专业论文.docx
- word教程-外国语言学及应用语言学专业论文.docx
- WO3纳米晶微观形貌、物相和晶面结构控制及气敏性能研究-材料学专业论文.docx
- XMZ公司人力资源管理系统再造研究-企业管理专业论文.docx
- XMPP 协议的安全性分析及其应用研究-计算机应用技术专业论文.docx
- XML结构连接算法的研究-计算机软件与理论专业论文.docx
- XML驱动的集团公司分布式结算中心-计算机软件与理论专业论文.docx
- XML隐私保护的若干关键问题研究-计算机应用技术专业论文.docx
- XMZ集团e-HR二次开发研究软件工程专业论文.docx
- XMZ公司人力资源管理系统再造研究企业管理专业论文.docx
- XNBX企业人力资源外包风险管理研究-工商管理专业论文.docx
- XN公司高管薪酬管理体系优化研究-工商管理专业论文.docx
- XN集团子公司绩效评价指标体系构建与应用研究-工商管理专业论文.docx
最近下载
- 2024年第十六届全国大学生数学竞赛初赛试卷及参考答案(非数学B类).pdf VIP
- 自考本科《小学综合性学习与跨学科教学》2025年4月模拟题附答案.docx VIP
- 高校教师培训教学设计模板.docx VIP
- 《野外辨别方向》课件.ppt VIP
- 2024年第十六届全国大学生数学竞赛初赛试卷及参考答案(非数学A类).pdf VIP
- 医务人员职业防护.ppt VIP
- 第42届全国中学生物理竞赛复赛试题.docx VIP
- 万科示范区验收移交指引.docx VIP
- 唐代僧人的法律规范-政大机构典藏.PDF
- 2025-2026学年高二地理上学期第一次月考卷5【测试范围:选择性必修一,第1~2章第1节】(原卷及解析).docx VIP
文档评论(0)