大数据抽取技术.pptx

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据抽取技术 大数据抽取技术 1文本文件抽取 1.文本文件抽取 文本文件抽取的基本方式是通过文本结构分析器或者人工分析,找出文本文件中所用到的分隔符,把分隔符左右两边的内容作为两个字段值进行抽取。 文本文件抽取实例如下: 需要被抽取的文本文件TxtExtract_test.txt,文件内容如图5-1所示。 图5-1 待抽取的文本文件 1 文本文件抽取 大数据抽取技术 1.文本文件抽取步骤 打开Kettle,在左侧导航栏中,从主对象树中选择转换,右键选择“新建”,创建一个新的转换trans_txtExtract_test,双击DB连接,创建新的数据连接,本例创建一个MySQL的数据连接。 1 2 人工分析文本文件中的分隔符,TxtExtract_test.txt文件的分隔符为“|”; 1 文本文件抽取 大数据抽取技术 1.文本文件抽取步骤 2.1 步骤2,MySQL的数据连接,入图5-2所示 图5-2 创建MySQL数据连接 实现图4-2连接成功的前提条件还需要在本机的MySQL数据库服务器上创建test数据库,否则点击“测试”,会提示“UnKnown Database test”,提示test数据库未知的异常。 1 文本文件抽取 大数据抽取技术 1.文本文件抽取步骤 双击打开“文本文件输入”控件,进入文本文件输入属性设置。 3 4 在“核心对象”中,选择“输入”,双击“文本文件输入”,在创建的转换trans_txtExtract_test工作区中添加文本文件输入的控件对象。 在“文件”选单中点击浏览,在弹出的文件浏览器中选中需要被抽取的文本文件TxtExtract_test.tx; 4.1 1 文本文件抽取 大数据抽取技术 1.文本文件抽取步骤 4.2 点击增加,把文件添加到选中的文件列表中,如图5-3所示 图5-3 添加需要抽取的文本文件 1 文本文件抽取 大数据抽取技术 1.文本文件抽取步骤 4.3 选择“内容”选单页,不改变默认的文件类型,修改分隔符为第1)步中分析的“|”,把“头部”后的复选框取消选中,其余保持默认值,如图5-4所示; 图5-4 分隔符设定 1 文本文件抽取 大数据抽取技术 1.文本文件抽取步骤 4.4 选择“字段”,根据文本文件内容,键入3个新字段名称,name、id、date,再分别指定字段类型,这里均指定为String型;点击页面下方的“预览记录”,则把从文本文件中的内容根据设定的字段进行抽取并预览显示,如图4-5所示; 图5-5 预览文本文件抽取数据 1 文本文件抽取 大数据抽取技术 2 文本文件抽取 大数据抽取技术 制表位 类型 设置 优势 左对齐,居中对齐,右对齐,小数点对齐和竖线对齐等 在输入一项数据之后,按一下TAB键,光标就会根据制表位的设置,在数据后面插入一个制表符 通过制表符分隔得文本数据,在识别上比不是用制表符的文本提高了几个档次,同时对于文本数据的抽取也大有裨益 2 Web数据抽取 大数据抽取技术 数据抽取分类 WEB HTML文件抽取 JSON数据抽取 XML数据抽取 人工方法进行HTML的数据抽取,主要的任务就是通过人工对网页源码结果的分析,借助编程语言,使用正则表达式,匹配HTML中的标签和标签属性,把有用的需要的数据过滤出来,实现HTML文件的数据抽取工作。 JSON的数据表现直截了当,通过花括号{}包裹,冒号:前面是数据的键,后面是数据的值,多个数据之间用逗号,分隔,若存在JsonArray,则用[]把数组的内容包裹起来。完全免除了对HTML源码标签和属性的分析,解决了人力负担 在kettle中可以使用两种方式读取和解析XML文件,分别是Get data from xml和 XML Input Stream (StAX) 2 Web数据抽取 大数据抽取技术 数据抽取实例 JSON 第一步 第二步 第三步 选择JSON文件,文件名为chinacitylist.js。如果使用kettle读取JSON文件,则文件的后缀名需要改为js,让kettle把该文件作为一个JavaScript文件来读取。 在kettle的核心对象树中选择“Input” ,而不是“输入” 。从Input中,选中JSON Input对象,双击或者拖动到转化的编辑区域,根据读取的JSON文件的内容修改该对象名称为JSONInputChinaCity。 双击该对象,进行属性设置。在文件选项页中先浏览需要读取的文件,再选择增加,注意JSON文件的后缀名已经改为了js,如图5-6所示 2 Web数据抽取 大数据抽取技术 JSON 先“浏览”找到需要抽取的JSON文件; 再“增加”把选中的文件添加到“选中的文件”列表中 图5-6 添加需要读取的JSON文件 2 数据库数据清洗 大数据抽取技术 第四步

文档评论(0)

智慧能源 + 关注
实名认证
服务提供商

企业信息管理师持证人

新能源集控中心项目 智慧电厂建设项目 智慧光伏 智慧水电 智慧燃机 智慧工地 智慧城市 数据中心 电力行业信息化

领域认证该用户于2023年02月15日上传了企业信息管理师

1亿VIP精品文档

相关文档