【盛唐】JAVA版数据清洗工具培训手册.docVIP

【盛唐】JAVA版数据清洗工具培训手册.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
【盛唐】JAVA版数据清洗工具培训手册

【盛唐】JAVA版数据清洗工具 培训手册 产品定义 数据清洗,对应英文名称ETL(Extract-Transform-Load),用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。数据清洗的目的,是将不同业务系统产生的零散、格式不一的异构数据源,通过预先定义的转换、校验规则进行清洗,最后按照标准化、规范化的数据格式要求,将业务数据汇总到集中存储的数据仓库,为后续的大数据分析、报表统计、数据挖掘业务提供基础数据。 开发目的 由于历史原因,医院使用的软件系统种类繁杂,不同的业务系统、不同的软件开发商、不同的开发版本的使用,导致院内系统越来越庞大,且系统产生的数据缺乏规范和统一标准,无法友好共享。如何让业务数据的价值得到更充分的发挥?数据清洗工具将实现这一需求。此外,在去IOE、去微软化的国家政策层面的驱动下,越来越来的院内系统要求在Linux环境下部署运行,Java开发语言因其“一次编译,处处运行”的跨平台特性,成为首选的开发语言,用其开发出来的产品,将会满足更复杂多变的环境要求,其市场也会越来越广。 系统安装部署 [具体内容请参考:《【盛唐】JAVA版数据清洗工具产品配置说明文档v1.0.docx》] 安装操作系统:中标麒麟 安装中间数据库:Mysql 安装数据清洗工具:ETLTool ETL工具的使用流程 系统流程:抓数据源-保存到中间库-执行清洗作业(数据比对、校验、转换、报错、记录清洗状态)-数据上传到目标库。 使用前的准备工作 获取源库、目标库的数据库和表结构:为了更快速地编写任务配置文件,首先明确目标库、目标表的具体定义和要求,然后找出源库和目标库的业务对应关系。 获取源库、目标库的业务字典:将所有与字典相关的业务,从源库中导出为标准格式的TXT文本,合成,再导入到ETL系统中,即可作为系统字典,在所有的清洗业务中使用,提高效率。 测试数据源:加载配置文件后,先进行数据源的测试,确保数据库连接畅通,保证清洗任务的正常进行。 4.2 试运行测试 刚开始使用ETL工具时,可能因为配置文件、网络、数据、使用不熟悉等原因,造成清洗工作未能顺利完成,为了避免前期不合格的清洗数据对目标库造成过多影响,可将配置文件中的“autoUpload”设置为false,表示不上传结果;也可以先把目标库指向为一个临时的测试库地址。 试运行结束后,清理测试数据(删除数据库或数据表),重新执行数据库初始化脚本,进入正式使用的流程。 正式使用 导入和修改业务字典(保证源库和目标库的字典对应关系); 编写任务配置文件(保证源库和目标库的字段对应关系,检查目标库的地址,autoUpload是否设置为true); 加载任务配置文件到系统中(默认状态为:定时开启); 定时或手动(需关闭定时开关)执行清洗任务。 ETL功能说明 具体内容请参考: 《【盛唐】JAVA版数据清洗工具操作手册v1.0.doc》 配置文件说明 所有配置文件位于conf/目录下: template.xml:任务模板文件,里面有配置的示例和说明。编写任务配置时,可复制此文件,然后进行相应修改; mysql.xml:ETL工具专用的本机中间库配置文件,使用时,需要按实际环境修改数据库名称、用户名、密码等。(系统会自动维护中间库etl-mid,不需要人工维护); perties:日志输出的配置文件,不用修改,程序运行时会在elttools.jar的同一级目录下自动生成日志文件APP.log。 日志文件说明 elttools.jar的同一级目录下,会自动生成两个日志文件: APP.log:应用程序日志,包含程序运行的信息、调试信息、错误信息等; etl.log:任务执行时输出的清洗信息。 错误定位分析 出现错误时,可由以下方法定位错误: 程序错误:打开APP.log,查看详细的异常打印信息; 数据错误:从程序中打开“详细错误日志”菜单,分析里面的错误记录,可以看到错误发生在哪个阶段(读取、清洗、上传)、哪条记录、具体的出错原因。 常见的错误发生原因: 网络连接异常; 业务字典配置不完整; 任务配置文件编写有误。 Linux简单培训 常用指令 cd:定位目录 ls:查看目录下内容 su:切换用户 mkdir:新建目录 rmdir:删除目录 service:控制服务启停,如:service mysql start(/stop/restart) cat(或者less):查看文件内容 tail –f:查看动态刷新的文件尾部,如:tail –f APP.log Linux远程连接工具 Xshell:远程终端; Xftp:文件传输; 其他:VNC Viewer 、PuTTY 、SecureCRT

文档评论(0)

dashewan + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档