高教社唐九阳大数据技术基础教学课件第5章 数据获取技术.pptxVIP

高教社唐九阳大数据技术基础教学课件第5章 数据获取技术.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五章 数据获取技术;数据分类 网页采集 数据采集案例分析 ;概念 数据采集(Data Acquisition),又称数据获取,是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析,处理。 现状 智能数据采集系统不断发展; 数据采集的数量不断增大; 数据采集的类型不断增多。 ;数据类型(按来源分) 商业数据 互联网数据 传感器数据 ;数据类型(按类型分) 结构化数据:结构化数据是可直接以行、列形式进行储存和处理的数据,即数据库存储的数据。 半结构和非结构化数据:除结构化数据外的数据都属于半结构化和非结构化数据的范畴;占到了总数据量的90%。;数据类型(按产生方式划分) 线上行为数据:页面数据、交互数据、表单数据、会话数据等。 内容数据:应用日志、电子文档、机器数据、语音数据、社交媒体数据等。;目标任务 外部数据渠道 网络爬虫 常用爬虫工具 Python代码示例;目标任务;外部数据渠道;爬虫的行为过程可以划分为三个部分: 载入 解析 存储;载入:将目标网站数据下载到本地 网站数据主要依托于网页(html)展示 爬虫程序向服务器发送网络请求,从而获取相应的网页 网站常用网络协议:http,https,ftp 数据常用请求方式:get,post;实际操作过程 确定URL,例如 确定请求的方式以及相关参数, 例如:s?ie=utf-8wd=数据库 用浏览器或者抓包工具URL发送参数, 例如:Urllib.request 返回结果 ;部分页面的数据是动态加载的 Ajax异步请求:网页中的部分数据需要浏览器渲染或者用户的某些点击、下拉的操作触发才能获得 解决方案 借助抓包工具,分析某次操作所触发的请求,通过代码实现相应请求 利用智能化的工具,例如webdriver ;解析:在载入的结果中抽取特定的数据,载入的结果主要分成三类html、json、xml html Java工具包:jsoup等 Python工具包:beautifulSoup等 json Java工具包:json-lib、org-json、jackson等 Python工具包:json、demjson等 Xml Java工具包:dom4j等 Python工具包:xml、libxml2等 ;常见爬虫工具;代码示例; ;数据解析;数据解析 定义: re.match 尝试从字符串的开始匹配一个模式。 re.match(pattern, string, flags) 例如:match(‘p’,’python’)返回值为真;match(‘p’,’’)返回值为假。 ;数据存储;本章旨在阐述数据获取的基本理论知识,简单介绍了根据不同的要求对数据进行的分类,重点介绍了外部和内部数据的获取等关键技术和方法。

您可能关注的文档

文档评论(0)

allen734901 + 关注
实名认证
文档贡献者

副教授持证人

知识共享

领域认证该用户于2024年11月14日上传了副教授

1亿VIP精品文档

相关文档