- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据质量诊断实务
最近,“数据经营”逐渐成为热点话题,在大数据市场中,数据质量自然而
然地吸引了很多人的注意。这里所谓的数据经营,就是将在社会或企业中产生的
大量数据加工为有价值的数据,利用他们对企业利润甚至更深一层的人类发展产
生重大意义。从2000年引入以来,企业的互联网和IT技术就飞速发展,开始将
企业的所有业务信息化。在企业层面,导入了用来统一数据的数据仓库(data
warehouse)及商务智能(businessintelligence)。但是随着环境急剧变化,
准备却不充分(特指先进技术的跟进),将不同业务中到处分散的信息系统整合
为一,由此开始产生不良数据。这样的不良数据引发了不同业务信息系统间严重
的数据重复和不一致等问题,给企业带来了巨大损失。存在这种问题的数据如果
在企业运营中持续使用,损害规模逐渐扩大只是时间问题。
数据质量是指使用的数据是否达到适当的标准以上。举个简单的例子,假设
在线购物中有个存储卖家信息的表SELLERINFO。顾客可以看到卖家的信用度和
配送所需时间等,进而购买卖家的商品。如果信息不正确,那么顾客对于表
SELLER_INFO的满意度就会大幅下降。相反,根据SELLER_INFO中存储的数据成
功购买了商品,估计对于质量的满意度就会上升。像这样的数据质量,就意味着
公司职员或顾客使用了数据库表中存储的数据,所得到的产品满意度标准。所以
企业为了使大量数据更有意义,管理和应用质量优秀的数据,应诊断数据质量,
不断努力管理,使其保持在一定水准之上。
数据质量诊断的种类有三种,对于数据库表中存储的数据值,执行质量诊断
的数据值诊断,对于数据设计构造进行的数据结构诊断,还有对于管理数据的流
程进行的数据管理流程诊断。
5.1数据值诊断
数据值诊断是以运营中的数据库表、列、关系、业务规则等为基准,分析数
据值是否有效、是否遗漏、是否唯一,还有是否违背构造完整性的数据等,导出
降低质量的问题点,对这些问题提出改善方案的质量诊断。例如,假设有符合图
5-1所示的数据库关系的表。职员表中的职员代码和部门表中的部门代码是各个
表的默认键(PRIMARYKEY),职员表和部门表通过部门代码列产生关联。
再来看职员表中用来PK的职员代码列,图5-1中,“100005”重复出现,
带有无法唯一确定的值。这里违背了识别符的唯一性。职员表的部门代码列可参
考部门表中的部门代码。但是看看职员表的“袁满”部门代码,在部门表中并无
“D05”这个值,这就违反了结构的完整性(一致性)。像这样诊断数据库表中
存储的值并找出问题,提出改善方案,对数据进行高品质维护和管理,并据此制
定业务规则叫做数据值诊断。
图5-1数据值诊断示例
数据值诊断的顺序是首先选定诊断对象,收集元数据,利用收集的元数据分
析数据文件、诊断数据值、分析文件结果、导出业务规则、进行品质测定,随后
确认错误数据及进行原因分析后、整合质量诊断结果、提出改善方案等一连串的
质量诊断流程。
在数据值诊断中处于核心的数据文件分析与犯罪心理分析官(侧写员)从事
的工作有很多相似的部分。在表现美国联邦调查局的犯罪侦查电视剧《犯罪心理》
中,坏人犯罪后,侧写员就会收集与犯罪有关的犯罪类型、社会影响、文化等所
有相关资料并进行分析。利用这些资料分析罪犯的动向和心理,提供罪犯继续犯
罪或将其抓捕的解决方案,现场人员就可以拘捕犯人。作为诊断数据值的方法,
数据文件分析也与此大为相似。所谓数据文件分析,就是以完整性、准确性、有
效性、唯一性、一致性等为标准对数据值进行调查,利用收集与数据相关的重要
信息和统计值等信息分析方法。
在进行数据文件分析前,要先选定质量诊断中使用的质量标准项目。质量标
准项目大致分为完整性、一致性、有效性、唯一性、准确性等,将这些细分就是
详细质量标准项目,如表5-2所示。进行质量诊断时,可将项目与内容互换。这
次质量诊断中,将完整性和唯一性、有效性、一致性选为质量标准进行质量诊断。
数据文件分析的进行顺序如图5-2所示。
下面介绍作为DBTool的OrangeObjectReportTool,通过它收集元数据
的例子。ObjectReportTool作为生成表和视图的定义书(report)的工具,
可以生成表目录、列目录、关系目录等定义书。元数据全部收集完毕后,分析遗
漏或不一致的
您可能关注的文档
- 新会计准则对企业纳税的影响 .pdf
- 新会计准则下的企业财务管理变革探述 .pdf
- 新一代互联网的发展现状与未来发展趋势探讨 .pdf
- 数控技术应用专业培养方案(三年制普通中专)教材 .pdf
- 数据评估 _原创精品文档.pdf
- 数据的收集与整理数学教案 .pdf
- 数据库的数据质量评估 .pdf
- 数据中心运维管理-技术方案.pdf
- 数据中心机房系统建设项目综合布线系统需求方案 .pdf
- 数学课堂教学中思维培养的研究和实践.pdf
- 2024年青岛版六三制新八年级历史下册阶段测试试卷544.doc
- 2024年粤教新版必修1历史下册月考试卷含答案.doc
- 2024年西师新版必修1历史下册月考试卷993.doc
- 2024年湘教版选修2历史上册月考试卷144.doc
- 2024年外研版三年级起点一年级英语上册阶段测试试卷含答案988.doc
- 2024年北师大版必修3历史下册阶段测试试卷396.doc
- 2024年湘师大新版八年级历史下册阶段测试试卷含答案839.doc
- 2024年陕教新版九年级数学上册月考试卷102.doc
- 2024年浙教版选修3地理上册阶段测试试卷399.doc
- 2024年鲁科版选修4历史上册月考试卷838.doc
最近下载
- 2023-2024学年广东省深圳市南山区六年级上期末数学试卷附答案解析.pdf VIP
- 哈佛分析框架与企业财务分析外文文献翻译.pdf
- 基于PLC的工件清洗装置设计.docx
- 上海电力大学2021-2022学年《马克思主义基本原理概论》期末考试试卷(A卷)含参考答案.docx
- 智慧灌溉解决方案.pptx VIP
- 23S519小型排水构筑物.pptx VIP
- 年产5000吨工业萘生产装置工艺设计说明书(毕业学术论文设计).doc
- 精品解析:江苏省南京市鼓楼区2023-2024学年九年级上学期期末语文试题(原卷版).docx VIP
- 【我国家具产业国际竞争力研究的国内外文献综述5000字】.docx VIP
- 中国农田生态系统碳蓄积及其变化特征研究.pdf VIP
文档评论(0)