- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
在SOA中创建独立数据清洗服务
在SOA中创建独立数据清洗服务
在SOA架构中开发一种独立的服务,它能够在服务之间进行数据交换时检测和清洗错误,这样不仅能在第一时间保证数据质量,而且可以避免为每个涉及数据交换的服务开发错误数据检测和清洗程序,从而大大减少了程序员的开发工作量。
SOA为IT系统的设计、开发和部署提供了一种新的思路。通过引入SOA的架构,IT系统解决了系统紧耦合、异构系统的互联互通及标准服务契约等问题。特别是SOA把Web Service作为SOA中的服务的标准实现方式,为后续的服务组合和业务流程编排提供了基础。然而,SOA只是为IT系统提供了好的基础架构,至于服务如何组合以及服务之间的数据如何交换还需要另外考虑。比如,保证服务之间交换的数据的正确性就一直是组合服务时一个很头疼的问题,因为数据的质量不仅影响服务组合后的运行结果,很可能还会影响未来基于这些数据所做决策的正确性。
实际上,有关数据质量保证的研究在许多领域都在进行中,特别是在数据库和数据挖掘领域。这些研究主要集中于在数据库中标识脏数据,比如在数据库中标识某个表中的多余值或者名字和结构冲突等。另一方面,使用统计的方法来标识数据集合中的可疑数据或丢失数据的研究也在进行中。不过,这些办法都是在数据收集保存下来之后对数据进行处理的,属于事后处理,而本文提出在服务之间进行数据交换的同时进行数据清洗。
独立数据清洗工具的不足
部署独立的数据清洗工具几乎是目前进行数据质量保证最为流行、也最为有效的办法,市场上也有不少商业化的数据清洗工具可供选择。不过,如果SOA环境中数据清洗只是单纯地依靠某个清洗工具,将会引发一些问题。比如,只依靠某个数据库的清洗工具或者数据挖掘系统来完成数据清洗的话,可能由于数据库与应用系统的数据规则不同而导致应用程序无法处理,从而引发程序错误; 或者将不正确的数据存入数据库,从而导致未来决策以及系统间对账的不准确。为了解决这些问题,许多应用系统不得已另外引入了数据清洗工具,尤其是在与数据挖掘有关的应用中。然而,这些工具一般都只应用于数据挖掘等??定应用的特定数据种类(比如,邮件地址、地址变动、寻找重复的人等),而且它们是独立开发的,一般很难在SOA架构内部使用。具体而言,独立的数据清洗工具有以下不足:
首先,不可能保证服务之间数据交换的质量。例如,两个交互服务(服务A和服务B)之间要交换数据(这些数据构成数据集),服务B将数据集的某个数据删除了或者系统中的清洗工具正在对它进行清洗,但是服务A并不知道,可能要一直等待这个数据的到来。要避免出现这种情形,就要求数据清洗服务能够在服务中实时地监测数据的交互。
其次,在SOA架构下,开发者为了满足服务对数据输入和输出的要求,往往需要对服务的内部进行调整。例如,通过集成服务A和服务B来创建一个新的服务,假设A已经输出数据集,但B只是处理该数据集中的部分数据,而且A中的数据并不完全符合B对输入数据的要求,这时,就需要对B服务进行修改,此时独立的数据清洗工具派不上太大用场,而能单独管理服务间的数据交换的独立服务则能完成这一任务。
第三,即使有一个由单独组件开发的清洗工具,如果不满足一定的要求,仍然不太可能灵活地进行脏数据检测。换句话说,即使一个清洗工具被开发成一个组件应用于服务A和服务B,要让清洗引擎重复更新以反映规则中的任何变化,从而建立新的规则去检测从服务A输出的数据中的错误,是非常困难的。这个以单独组件形式存在的清洗工具必须具备灵活地处理数据集中规则和约束变化的能力,而且一定要使用XML作为标准的交互语言。
另外,数据清洗工具是在所有的数据都已经收集存储起来后才使用的,与之相比,在数据输入的同时就进行数据的校验和清洗显然具有更多的优势。为此,人们提出开发出一种独立的服务,该服务符合SOA的规范,能够在服务间的数据交换过程中检测和清洗错误。其优点是能减少开发者组合服务时的重复劳动,而且能有效地管理应用系统中的数据,尤其是像电子商务这类需要频繁交互的系统。实践证明,通过应用此服务来集成基于SOA的CRM和EPR服务,能将两个服务间数据交换中出现的错误减少30%以上。
制定脏数据检测规则
检测和清洗脏数据之前必须明确脏数据的分类以及检测和清洗的规则。
我们根据数据收集、集成及储存的各种数据处理过程,将数据库中可能发生的错误进行分类。如表1所示,能够被处理的用于服务间交互的脏数据种类一共有33种类型。“可检测的”代表脏数据能够被服务开发者设定的限制或者使用特殊工具检测到。在这33种脏数据种类中,有12种属于交互数据错误,其他的数据错误主要发生在数据库中或者只在和其他数据集对比的时候才被称之为脏数据。而在这选取的12种数据错误中,按
您可能关注的文档
- 单纯理想主义者幻灭.doc
- 南京地铁单程票流失问题分析.doc
- 南京建设研发中心城市可行性分析.doc
- 南昌市区停车泊位现状分析及资源开发管理研究.doc
- 南京市聋人大学生课余体育锻炼影响因素研究.doc
- 南平地区发展休闲农业存在问题及对策.doc
- 南方水稻黑条矮缩病发生与防控技术.doc
- 南水北调配套工程廊涿干渠工程中PCCP管道制作工艺.doc
- 南水北调配套工程廊涿干渠工程中PCCP管道安装工艺.doc
- 南疆红枣产业发展中存在问题及对策.doc
- 2025及未来5年电动堆高车项目投资价值分析报告.docx
- 2025及未来5年中国医用屏蔽室行业发展市场调查数据研究报告.docx
- 2025及未来5年中国单指向性双鹅颈式会议话筒行业发展市场调查数据研究报告.docx
- 2025及未来5年自动控制恒温恒湿机项目投资价值分析报告.docx
- 2025及未来5年金属手镯项目投资价值分析报告.docx
- 2025及未来5年中国无缝束腹背心行业发展市场调查数据研究报告.docx
- 2025及未来5年鬼头玻璃贴项目投资价值分析报告.docx
- 2025及未来5年开采设备项目投资价值分析报告.docx
- 2025及未来5年全自动锯石机项目投资价值分析报告.docx
- 2025及未来5年螺丝冷打机项目投资价值分析报告.docx
最近下载
- 2025年6月全国大学英语CET四级真题和答案解析(全三套).pdf
- 医院污水处理方案.docx VIP
- 2020NFPA 855固定式储能系统安装标准.pdf VIP
- 大学生社会实践-流动的急救课堂智慧树知到期末考试答案2024年.docx VIP
- 精品度假酒店设计.pptx
- 2024-2025学年人教版小学六年级数学下册第三单元《圆柱的表面积和体积的计算》专项试卷及答案.docx VIP
- BB-T 0053-2023模内标签-标准图集.docx VIP
- 纪检监察笔录培训课件.pptx VIP
- 股份公司董事会向经理层授权管理办法附董事会授权事项清单.docx VIP
- 高温操作寿命HTOL及早期失效EFR计算公式.xls VIP
原创力文档


文档评论(0)