数据采集:如何自动化采集数据?.pdfVIP

数据采集:如何自动化采集数据?.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据采集:如何⾃动化采集数据? 上⼀节中我们讲了如何对⽤户画像建模,⽽建模之前我们都要进⾏数据采集。数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很 多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样。 举个例⼦,你做量化投资,基于⼤数据预测未来股票的波动,根据这个预测结果进⾏买卖。你当前能够拿到以往股票的所有历史数据,是否 可以根据这些数据做出⼀个预测率⾼的数据分析系统呢? 实际上,如果你只有股票历史数据,你仍然⽆法理解股票为什么会产⽣⼤幅的波动。⽐如,当时可能是爆发了SARS疫情,或者某地区发⽣ 了战争等。这些重⼤的社会事件对股票的影响也是巨⼤的。 因此我们需要考虑到,⼀个数据的⾛势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据 的质量,这样才能得到⾼质量的数据挖掘结果。 那么,从数据采集⾓度来说,都有哪些数据源呢?我将数据源分成了以下的四类。 这四类数据源包括了:开放数据源、爬⾍抓取、传感器和⽇志采集。它们各有特点。 开放数据源⼀般是针对⾏业的数据库。⽐如美国⼈⼝调查局开放了美国的⼈⼝信息、地区分布和教育情况数据。除了政府外,企业和⾼校也 会开放相应的⼤数据,这⽅⾯北美相对来说做得好⼀些。国内,贵州做了不少⼤胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领 域的数据量。 要知道很多研究都是基于开放数据源进⾏的,否则每年不会有那么多论⽂发表,⼤家需要相同的数据集才能对⽐出算法的好坏。 爬⾍抓取,⼀般是针对特定的⽹站或App。如果我们想要抓取指定的⽹站数据,⽐如购物⽹站上的购物评价等,就需要我们做特定的爬⾍抓 取。 第三类数据源是传感器,它基本上采集的是物理信息。⽐如图像、视频、或者某个物体的速度、热度、压强等。 最后是⽇志采集,这个是统计⽤户的操作。我们可以在前端进⾏埋点,在后端进⾏脚本收集、统计,来分析⽹站的访问情况,以及使⽤瓶颈 等。 知道了有四类数据源,那如何采集到这些数据呢? 如何使⽤开放数据源 我们先来看下开放数据源,教你个⽅法,开放数据源可以从两个维度来考虑,⼀个是单位的维度,⽐如政府、企业、⾼校;⼀个就是⾏业维 度,⽐如交通、⾦融、能源等领域。这⽅⾯,国外的开放数据源⽐国内做得好⼀些,当然近些年国内的政府和⾼校做开放数据源的也越来越 多。⼀⽅⾯服务社会,另⼀⽅⾯⾃⼰的影响⼒也会越来越⼤。 ⽐如,下⾯这张表格列举的就是单位维度的数据源。 所以如果你想找某个领域的数据源,⽐如⾦融领域,你基本上可以看下政府、⾼校、企业是否有开放的数据源。当然你也可以直接搜索⾦融 开放数据源。 如何使⽤爬⾍做抓取 爬⾍抓取应该属于最常见的需求,⽐如你想要餐厅的评价数据。当然这⾥要注重版权问题,⽽且很多⽹站也是有反爬机制的。 最直接的⽅法就是使⽤Python编写爬⾍代码,当然前提是你需要会Python的基本语法。除此之外,PHP也可以做爬⾍,只是功能不如 Python完善,尤其是涉及到多线程的操作。 在Python爬⾍中,基本上会经历三个过程。 1. 使⽤ Requests 爬取内容。我们可以使⽤ Requests库来抓取⽹页信息。Requests 库可以说是 Python 爬⾍的利器,也就是Python 的HTTP 库,通过这个库爬取⽹页中的数据,⾮常⽅便 ,可以帮我们节约⼤量的时间。 2. 使⽤ XPath 解析内容。XPath 是XML Path的缩写,也就是XML 路径语⾔。它是⼀种⽤来确定 XML ⽂档中某部分位置的语⾔,在 开发中经常⽤来当作⼩型查询语⾔。XPath可以通过元素和属性进⾏位置索引。 3. 使⽤ Pandas 保存数据。Pandas 是让数据分析⼯作变得更加简单的⾼级数据结构,我们可以⽤ Pandas 保存爬取的数据。最后通过 Pandas再写⼊到XLS或者MySQL等数据库中。 Requests、XPath、Pandas是Python的三个利器。当然做Python爬⾍还有很多利器,⽐如Selenium,PhantomJS,或者⽤ Puppteteer这种⽆头模式。 另外我们也可以不编程就抓取到⽹页信息,这⾥介绍三款常⽤的抓取⼯具。 ⽕车采集器已经有13年历史了,是⽼牌的采集⼯具。它不仅可以做抓取⼯具,也可以做数据清洗、数据分析、数据挖掘和可视化等⼯作。 数据源适⽤于绝⼤部分的⽹页,⽹页中能看到的内容都可以通过采集规则进⾏抓取。 ⼋⽖鱼也是知名的采集⼯具,它有两个版本,⼀个就是免费的采集模板,还有⼀个就是云采集(付费)。 免费的采集模板实际上就是内容采集规则,

文档评论(0)

139****1921 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档