- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
【盛唐】JAVA版数据清洗工具
培训手册
江苏曼荼罗软件股份有限公司第1页共5页
产品应用说明书
1产品定义
数据清洗,对应英文名称ETL(Extract-Transform-Load),用来描述将数据
从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过
程。数据清洗的目的,是将不同业务系统产生的零散、格式不一的异构数据源,通
过预先定义的转换、校验规则进行清洗,最后按照标准化、规范化的数据格式要求,
将业务数据汇总到集中存储的数据仓库,为后续的大数据分析、报表统计、数据挖
掘业务提供基础数据。
2开发目的
由于历史原因,医院使用的软件系统种类繁杂,不同的业务系统、不同的软件
开发商、不同的开发版本的使用,导致院内系统越来越庞大,且系统产生的数据缺
乏规范和统一标准,无法友好共享。如何让业务数据的价值得到更充分的发挥?数
据清洗工具将实现这一需求。此外,在去IOE、去微软化的国家政策层面的驱动下,
越来越来的院内系统要求在Linux环境下部署运行,Java开发语言因其“一次编译,
处处运行”的跨平台特性,成为首选的开发语言,用其开发出来的产品,将会满足
更复杂多变的环境要求,其市场也会越来越广。
3系统安装部署
[具体内容请参考:《【盛唐】JAVA版数据清洗工具产品配置说明文档v1.0.docx》]
3.1安装操作系统:中标麒麟
3.2安装中间数据库:Mysql
3.3安装数据清洗工具:ETLTool
4ETL工具的使用流程
系统流程:抓数据源-保存到中间库-执行清洗作业(数据比对、校验、转换、
江苏曼荼罗软件股份有限公司第2页共5页
产品应用说明书
报错、记录清洗状态)-数据上传到目标库。
4.1使用前的准备工作
1.获取源库、目标库的数据库和表结构:为了更快速地编写任务配置文件,首先明确
目标库、目标表的具体定义和要求,然后找出源库和目标库的业务对应关系。
2.获取源库、目标库的业务字典:将所有与字典相关的业务,从源库中导出为标准格
式的TXT文本,合成,再导入到ETL系统中,即可作为系统字典,在所有的清洗业
务中使用,提高效率。
3.测试数据源:加载配置文件后,先进行数据源的测试,确保数据库连接畅通,保证
清洗任务的正常进行。
4.2试运行测试
刚开始使用ETL工具时,可能因为配置文件、网络、数据、使用不熟悉等原因,造
成清洗工作未能顺利完成,为了避免前期不合格的清洗数据对目标库造成过多影响,可
江苏曼荼罗软件股份有限公司第3页共5页
产品应用说明书
将配置文件中的“autoUpload”设置为false,表示不上传结果;也可以先把目标库指
向为一个临时的测试库地址。
试运行结束后,清理测试数据(删除数据库或数据表),重新执行数据库初始化脚
本,进入正式使用的流程。
4.2正式使用
1.导入和修改业务字典(保证源库和目标库的字典对应关系);
2.编写任务配置文件(保证源库和目标库的字段对应关系,检查目标库的地址,
autoUpload是否设置为true);
3.加载任务配置文件到系统中(默认状态为:定时开启);
4.定时或手动(需关闭定时开关)执行清洗任务。
5ETL功能说明
具体内容请参考:《【盛唐】JAVA版数据清洗工具
文档评论(0)