- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
University of Science and Technology of ChinaA d issertation for doctor’S deg reeD ata C l ea n i n g i n Data I nteg rationAuthor’S Name:Jie Liuspeciality:Computer Software and Theory Supervisor:Prof.Tao HuangFinished time:October,20 1 0中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作 了明确的说明。作者签名:独查!签字日期:|矿I口.it.z4-中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有 关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论 文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。忆忪开口保密(——年)作者签名:导师签名:签字日期:垫!!:!!:圣!摘要摘要数据清理是企业数据集成领域重要且热门的研究问题。随着企业应用日益 复杂,企业数据的质量及其管理代价成为越来越受关注的方面。传统的企业数 据质量管理基于静态质量规则来刻画和保障,在扩展性和自动化处理方面难以 满足企业应用的需求。如何以完整性约束理论为基础,自动化地推理和挖掘数 据清理规则并保证数据的一致性,是数据质量保障一个新的热点问题。本文针 对企业数据集成领域的数据质量保障问题,研究高效地检测和清理不一致数据的方法与技术。首先,本文提出了一种基于反向约束传播的异常数据检测方法,根据数据 集成目的端的质量约束推理源端需要满足的质量约束,从而在源端进行异常数 据检测。在数据集成流程中,数据源端的数据经过流程处理后,可能会将违反 目的端的完整性约束,导致不成功的加载或者成为目的端数据库中的脏数据, 因为数据量大,而且可能存在远程的数据传输,通过执行调试的方法来定位问 题数据的代价太大。本论文中提出反向约束传播(Backwards Constraint Propagation,BCP)的方法,首先将数据集成流程建模为有向无环图,然后自动 将目的端数据库的完整性约束沿着数据流反方向,向数据源端推理。文中采用 一阶逻辑定义并证明面向基本关系代数操作的约束传播规则,并定义约束传播 规则支持采用属性映射和元组映射两个抽象操作标注的复杂数据操作,使BCP 可以支持大多数类型的数据操作。案例分析及实验表明该方法可以有效辅助捕 获异常数据并提高数据集成流程的设计效率。其次,本文提出基于NULL修复的一致性查询方法,支持对不一致数据源在 查询时自动过滤不一致的属性信息。多个数据源的数据集成后,因为缺乏足够 的辅助信息进行清理,可能存在大量违反完整性约束的数据。一致性查询技术 (Consistent Query Answering,CQA)研究如何在查询时采用虚拟修复的方法 获取一致的结果,但已有的方法大多基于元组删除的修复方法,可能导致信息 丢失,而且对于大多数约束求解CQA是NP问题。我们将约束类型限制在属性级, 即只有违反约束的属性为不一致信息,并提出基于NULL的修复语义,将所有不 一致属性使用NULL替换得到虚拟修复。当进行NULL修复后可能会产生新的不 一致属性,针对该问题提出约束扩展算法,通过一轮检测定位所有可能的不一 致属性。然后,基于NULL修复语义给出了SQL重写算法来实现CQA。文中进行 了实验与性能分析,表明该方法计算复杂度与数据库规模、不一致数据比例、 查询类型成线性比例关系。摘要再次,本文提出了一种数据清理流程的通用优化框架,支持对数据清理流 程操作的自动重构,优化流程的执行效率。随着数据量飞速的增长,性能成为 数据清理的瓶颈,如果对数据清理流程的逻辑模型进行优化,可以在不增加资 源的情况下获取性能的提升。本文提出一个框架,通过对流程进行语义等价的 结构变换生成备选流程,并预测各备选流程的执行代价选择最优的流程。支持 对操作组件标注其操作语义的特征属性,定义特定领域的流程变换规则,同时 提出根据流程代价相对关系来构建代价偏序图,提高流程选择的精确度。为了 表明该框架的通用性和有效性,将其应用到web数据Mashup工具中,实验表明 可以有效降低mashup的响应时间。最后,本文研究开
您可能关注的文档
- 面向生物芯片应用的非晶合金模具的精密复制-材料学专业毕业论文.docx
- 空心微纳米碳材料的低温合成与表征-材料学专业毕业论文.docx
- 螺杆式地下水源热泵系统在高原河谷地区的应用研究-供热、供燃气、通风及空调工程专业毕业论文.docx
- 面向廉租房的重庆旧厂区住宅改造研究-建筑设计及其理论专业毕业论文.docx
- 面向陆地边界场景的三维建模方法研究-地图制图这与地理信息工程专业毕业论文.docx
- 脉络膜厚度对高度近视孔源性视网膜脱离术后视力的影响-眼科学专业毕业论文.docx
- 矩阵变换器若干关键问题研究-控制科学与工程专业毕业论文.docx
- 面向精益生产的传送带式流水线生产高度关键技术研究-控制理论与控制工程专业毕业论文.docx
- 面向对象的SAR溢油检测算法与系统构建-物理海洋学专业毕业论文.docx
- 面向汽车娱乐系统的数字图像解析的设计和实现-软件工程专业毕业论文.docx
- 蒙自绕城高速公路工程膨胀土路基改良方案研究-交通运输工程专业毕业论文.docx
- 面向科学与工程计算应用网格及其关键技术研究与实现-计算机软件与理论专业毕业论文.docx
- 抗禽流感天然产物筛选及八仙草化学成分研究-药物化学专业毕业论文.docx
- 面向医疗信息管理的RFID安全技术研究-生物医学工程专业毕业论文.docx
- 煤矿井下WSN与Internet互联系统的设计与实现-计算机应用技术专业毕业论文.docx
- 镁合金压铸工艺设计准则的数值模拟研究-材料加工工程专业毕业论文.docx
- 黄瓜耐低氮胁迫生理及分子机制初步研究-园艺学;蔬菜学专业毕业论文.docx
- 慢性病病人健康素养量表的研究及其初步应用-社区卫生与健康促进专业毕业论文.docx
- 慢性心力衰竭患者心脏再同步化治疗反应性及远期临床预后影响因素分析-内科学专业毕业论文.docx
- 铝合金模板应用技术研究-建筑与土木工程专业毕业论文.docx
最近下载
- 2023年广东省普通高中学业水平第一次合格性考试物理试题(原卷版).docx VIP
- Let’s learn信息技术与学科融合教学设计.doc VIP
- 急诊急救知识试题(含答案).docx VIP
- 智慧城市生命线工程综合安全风险监测预警平台解决方案.ppt VIP
- 国家重点研发计划项目综合绩效自评价报告..docx
- 石油化工行业知识产权保护与创新研究.pptx VIP
- 电大《西方行政学说》形考任务2.4答案.pdf VIP
- 2026年咨询工程师考试题库【完整版】.docx VIP
- 2023年7月广东省普通高中学业水平合格性考试物理试题(原卷版).docx VIP
- 中国高等教育学会外国留学生教育管理分会科研课题成果.pdf VIP
原创力文档


文档评论(0)