- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【盛唐】JAVA版数据清洗工具培训手册
【盛唐】JAVA版数据清洗工具
培训手册
产品定义
数据清洗,对应英文名称ETL(Extract-Transform-Load),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。数据清洗的目的,是将不同业务系统产生的零散、格式不一的异构数据源,通过预先定义的转换、校验规则进行清洗,最后按照标准化、规范化的数据格式要求,将业务数据汇总到集中存储的数据仓库,为后续的大数据分析、报表统计、数据挖掘业务提供基础数据。
开发目的
由于历史原因,医院使用的软件系统种类繁杂,不同的业务系统、不同的软件开发商、不同的开发版本的使用,导致院内系统越来越庞大,且系统产生的数据缺乏规范和统一标准,无法友好共享。如何让业务数据的价值得到更充分的发挥?数据清洗工具将实现这一需求。此外,在去IOE、去微软化的国家政策层面的驱动下,越来越来的院内系统要求在Linux环境下部署运行,Java开发语言因其“一次编译,处处运行”的跨平台特性,成为首选的开发语言,用其开发出来的产品,将会满足更复杂多变的环境要求,其市场也会越来越广。
系统安装部署
[具体内容请参考:《【盛唐】JAVA版数据清洗工具产品配置说明文档v1.0.docx》]
安装操作系统:中标麒麟
安装中间数据库:Mysql
安装数据清洗工具:ETLTool
ETL工具的使用流程
系统流程:抓数据源-保存到中间库-执行清洗作业(数据比对、校验、转换、报错、记录清洗状态)-数据上传到目标库。
使用前的准备工作
获取源库、目标库的数据库和表结构:为了更快速地编写任务配置文件,首先明确目标库、目标表的具体定义和要求,然后找出源库和目标库的业务对应关系。
获取源库、目标库的业务字典:将所有与字典相关的业务,从源库中导出为标准格式的TXT文本,合成,再导入到ETL系统中,即可作为系统字典,在所有的清洗业务中使用,提高效率。
测试数据源:加载配置文件后,先进行数据源的测试,确保数据库连接畅通,保证清洗任务的正常进行。
4.2 试运行测试
刚开始使用ETL工具时,可能因为配置文件、网络、数据、使用不熟悉等原因,造成清洗工作未能顺利完成,为了避免前期不合格的清洗数据对目标库造成过多影响,可将配置文件中的“autoUpload”设置为false,表示不上传结果;也可以先把目标库指向为一个临时的测试库地址。
试运行结束后,清理测试数据(删除数据库或数据表),重新执行数据库初始化脚本,进入正式使用的流程。
正式使用
导入和修改业务字典(保证源库和目标库的字典对应关系);
编写任务配置文件(保证源库和目标库的字段对应关系,检查目标库的地址,autoUpload是否设置为true);
加载任务配置文件到系统中(默认状态为:定时开启);
定时或手动(需关闭定时开关)执行清洗任务。
ETL功能说明
具体内容请参考: 《【盛唐】JAVA版数据清洗工具操作手册v1.0.doc》
配置文件说明
所有配置文件位于conf/目录下:
template.xml:任务模板文件,里面有配置的示例和说明。编写任务配置时,可复制此文件,然后进行相应修改;
mysql.xml:ETL工具专用的本机中间库配置文件,使用时,需要按实际环境修改数据库名称、用户名、密码等。(系统会自动维护中间库etl-mid,不需要人工维护);
perties:日志输出的配置文件,不用修改,程序运行时会在elttools.jar的同一级目录下自动生成日志文件APP.log。
日志文件说明
elttools.jar的同一级目录下,会自动生成两个日志文件:
APP.log:应用程序日志,包含程序运行的信息、调试信息、错误信息等;
etl.log:任务执行时输出的清洗信息。
错误定位分析
出现错误时,可由以下方法定位错误:
程序错误:打开APP.log,查看详细的异常打印信息;
数据错误:从程序中打开“详细错误日志”菜单,分析里面的错误记录,可以看到错误发生在哪个阶段(读取、清洗、上传)、哪条记录、具体的出错原因。
常见的错误发生原因:
网络连接异常;
业务字典配置不完整;
任务配置文件编写有误。
Linux简单培训
常用指令
cd:定位目录
ls:查看目录下内容
su:切换用户
mkdir:新建目录
rmdir:删除目录
service:控制服务启停,如:service mysql start(/stop/restart)
cat(或者less):查看文件内容
tail –f:查看动态刷新的文件尾部,如:tail –f APP.log
Linux远程连接工具
Xshell:远程终端;
Xftp:文件传输;
其他:VNC Viewer 、PuTTY 、SecureCRT
您可能关注的文档
最近下载
- 森林草原湿地荒漠化普查项目投标方案(技术方案).pdf
- 玩家国度ROG STRIX X870E-E GAMING WIFI 主板 ROG STRIX X870E-E GAMING WIFI 简体中文版快速指导手册.pdf
- 英语的句子成分.ppt VIP
- 2025年吉林省珲春市辅警招聘考试题库及答案.docx
- Welcome unit Discovering Useful Structures 句子成分课件-2024-2025学年高一上学期英语人教版(2019)必修第一册.pptx VIP
- 护理实习生管理制度及安全教育.ppt VIP
- 小学英语句子成分基础篇.doc VIP
- 小学英语语法课件-人称代词课件(全国通用版)(共90张PPT).pptx VIP
- 供热运行安全课件.pptx VIP
- 2024屋顶分布式光伏电站建设规范.docx VIP
文档评论(0)