各数据导入ORACLE处理说明解剖.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
结构化文本文件入库 常见非结构化数据格式如下: 文件类型数据格式CSV文件按照逗号作为字段分割符,以每行作为一条记录的数据格式文件。TXT文件按照特定字符作为字段分隔符,以每行作为一条记录的数据格式文件。XLS/XLSX文件OFFICE2003/2007的规范化数据文件。XML文件符合DOM规范的XML规范化数据文件。格式化WORD文件在WORD文件中包含规范化表格信息,以每个表格作为一条记录的格式化数据。其他规范文件如:HTML文件、PPT文件等包含符合某些规范的数据文件。 CSV文件/TXT文件入库 CSV文件TXT文件以上文件统一采用KETTLE数据抽取工具进行入库,如下图 说明: 利用大文本编辑工具打开数据(超大文本文件忽略此步骤),点击【视图】中【显示空格/制表符】可准确定位数据分???符。 选择要导入的文件。 内容设置文件格式及分隔符。 格式固定选择mixed可有效避免格式引起的错误 编码格式根据数据预览情况进行修改 若数据起始行不在第一行则根据实际修改,若没有字段名则去掉头部后面的√ 根据第一步填写分隔符 直接点击获取字段即可,建议将类型全部设置为string确保顺利入库,点击下方的预览记录查看数据正确性。 注意1:较大文件直接获取字段,通过获取到的数据判断数据分隔符后,修改分隔符重新获取即可 注意2:无字段名数据可自定义字段名后预览数据,确定自定义字段个数不少于文件数据列数 定义文件来源(可忽略),该步骤可将文件名称、文件路径等信息写入到目标表中。(通用) 配置目标表,点击【新建】按钮。 数据库SID 数据库服务IP 在目标表已存在的情况下可直接将表名称填入目标表。 若目标表不存在可先定义好表名称并填入目标表后,点击下方的【sql】按钮,生成建表语句后,点击【执行】按钮,自动建表。 数据映射抽取(通用)目标表建成后配置字段映射以及定义错误输出。 定义错误数据文件路径及名称 保存,运行完成导入。 注意1:当源字段与目标字段不一致时(如:姓名-名称),需勾选下方标注地方确保转换正常运行。 XLS/XLSX文件入库 XLS/XLSX文件 选择XLS/XLSX文件。 获取XLS/XLSX文件SHEET页,即如果存在多个SHEET页数据,可以自定义选择导入。标注处可定义该文件的起始行,针对标题做了合并单元格操作的XLS文件有很大用处。 获取XLS/XLSX文件中字段列的信息,可以根据导入需求进行自定义处理,在导入过程中对每个字段值的前后空格、精度以及类型进行配置处理。 注意:文件存在多个Sheet页时,若结构不一致要分别进行导入。 若多个sheet页结构一致,则可一次导入(获取字段是有以下效果)。 XML文件导入 XML文件数据存放位置 利用大文本编辑工具打开XML文件,确定数据存放位置。 在XML中获取数据位置,选择对应的数据主节点,即为数据的行信息。 获取该主节点信息的各数据字节点,即为数据列信息。 与TXT以及XLS文件处理方式相同。导入想要导入的数据库中即可。 格式化WORD文件 对于WORD中含有格式化表格数据(如:人员简历信息等),我们采用定制开发数据导入工具的模式,对WORD中表格信息进行读取,并导入数据库中。 格式化WORD文件其他类型数据文件 如PDF(文字信息)、PPT、HTML等具有完全规范化/部分规范化的数据文件,均可以采用定制开发工具与已有ETL工具相结合的模式对数据进行规范格式化入库处理。 文件批量入库 对于同目录下存在多个相同格式的数据文件,进行文件入库,采用通配符的方式,通过ETL工具对数据进行批量入库处置。 通配符 文件存放路径 定期自动增量同步 使用ETL工具创建定期调度作业任务进行处理,可以实现如下几种场景: 同格式文件目录下,数据文件不断更新增加的情况。 同格式压缩包文件,自动解压,将新数据文件导入对应数据库中。 不同格式数据文件的自动整合汇集到数据库中。 数据库文件入库 常见数据库文件格式 数据库类型数据格式oracle数据库dmp文件(exp、dxpdp)、sql文件sqlserver数据库sql文件、mdf和ldf文件、bak文件mysql数据库sql文件、frm,myd,myi文件、dump文件Access数据库mdb文件其他数据库文件DBF文件db2数据库ixf文件,message文件ORACLE数据导入-DMP文件 IMP导入方式 oracle数据库的dmp文件可直接以命令行的方式入库,具体命令如下: imp?用户名/密码@数据库名?file=xxx.dmp?full=y ignore=y如果要导入到指定表空间可利用show=y 查看dmp文件

文档评论(0)

1112111 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档