数据抽取过程.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据抽取过程

文件状态: [√] 草稿 [ ] 正在修改 [ ] 正式发布 文件标识 当前版本 V1.0 完成日期 2016年6月20日 拟 制 人 审 批 人 宿迁市公安局 资源整理说明 深圳市神盾信息技术有限公司 二〇一六年六月 修订历史记录 A - 增加 M - 修订 D - 删除 版本号 日期 变更类型 修改人 摘 要 备注 V1.0 2016-06-20 A 李伟明 目 录 目录 目 录 3 目录 3 1 引言 4 1.1 编写目的 4 1.2 抽取背景 4 2 ETL抽取数据过程 4 2.1 省厅下发数据 4 2.1.1 入所人员手机APP数据采集 4 引言 编写目的 方便项目组相关人员进行数据抽取了解。 详细记录工作流程以便日后查看。 本文档提供以下人员阅览: 公司的实施人员、研发人员、维护人员。宿迁市公安局项目相关人员。ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能,ETL工具会进行一些功能上的扩充,例如工作流、调度引擎、规则引擎、脚本支持、统计信息等。 省厅下发数据 入所人员手机APP数据采集 ftp信息 建立ftp数据平台用于存放下发数据 ftp地址 账户/密码 文件夹 sq_ftp/123456 未定 存储中间库 将下发数据先抽取入中间库,中间库具体信息如下: 序号 中间库地址 服务名 账户/密码 1 14 Orcl hewin/sundun 抽取需求 获取数据后,打开xml文件进行分析,查看数据字段类型,如时间,如源数据时间字段为varchar类型,而目标表为date字段则会出现数据无法插入的情况,可将date字段改为varchar字段进行抽取。 抽取过程 建立数据库与kettle工具的连接,新建作业,先从ftp下载数据到本地,再将ftp多余数据删除,通过解压缩文件工具将数据解压进制定文件夹,如下图: 然后新建转换,通过kettle菜单下的XML输入文件解析解压后的xml源数据文件,同时通过\{.*\}\语句读取如下图 解析完XML文件后,拖入获取字段及表输出两个工具条,在表输出中连接中间库: 然后确定中间库里的目标表 通过字段选择获取xml内解析出来的字段并且建立列映射 至此一个转换基本完成根据名数据名的命名规范进行转换命名 最后连接最初新建的转换完成整个抽取; Hadoop集群规划及配置(深圳市神盾信息技术有限公司,2016 第 7 页/共 10页

您可能关注的文档

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档