数据采集：如何自动化采集数据？.pdfVIP

下载本文档

2
0
约3.78千字
约 5页
2023-08-03 发布于上海
举报
版权申诉

数据采集：如何自动化采集数据？.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据采集：如何⾃动化采集数据？上⼀节中我们讲了如何对⽤户画像建模，⽽建模之前我们都要进⾏数据采集。数据采集是数据挖掘的基础，没有数据，挖掘也没有意义。很多时候，我们拥有多少数据源，多少数据量，以及数据质量如何，将决定我们挖掘产出的成果会怎样。举个例⼦，你做量化投资，基于⼤数据预测未来股票的波动，根据这个预测结果进⾏买卖。你当前能够拿到以往股票的所有历史数据，是否可以根据这些数据做出⼀个预测率⾼的数据分析系统呢？实际上，如果你只有股票历史数据，你仍然⽆法理解股票为什么会产⽣⼤幅的波动。⽐如，当时可能是爆发了SARS疫情，或者某地区发⽣了战争等。这些重⼤的社会事件对股票的影响也是巨⼤的。因此我们需要考虑到，⼀个数据的⾛势，是由多个维度影响的。我们需要通过多源的数据采集，收集到尽可能多的数据维度，同时保证数据的质量，这样才能得到⾼质量的数据挖掘结果。那么，从数据采集⾓度来说，都有哪些数据源呢？我将数据源分成了以下的四类。这四类数据源包括了：开放数据源、爬⾍抓取、传感器和⽇志采集。它们各有特点。开放数据源⼀般是针对⾏业的数据库。⽐如美国⼈⼝调查局开放了美国的⼈⼝信息、地区分布和教育情况数据。除了政府外，企业和⾼校也会开放相应的⼤数据，这⽅⾯北美相对来说做得好⼀些。国内，贵州做了不少⼤胆尝试，搭建了云平台，逐年开放了旅游、交通、商务等领域的数据量。要知道很多研究都是基于开放数据源进⾏的，否则每年不会有那么多论⽂发表，⼤家需要相同的数据集才能对⽐出算法的好坏。爬⾍抓取，⼀般是针对特定的⽹站或App。如果我们想要抓取指定的⽹站数据，⽐如购物⽹站上的购物评价等，就需要我们做特定的爬⾍抓取。第三类数据源是传感器，它基本上采集的是物理信息。⽐如图像、视频、或者某个物体的速度、热度、压强等。最后是⽇志采集，这个是统计⽤户的操作。我们可以在前端进⾏埋点，在后端进⾏脚本收集、统计，来分析⽹站的访问情况，以及使⽤瓶颈等。知道了有四类数据源，那如何采集到这些数据呢？如何使⽤开放数据源我们先来看下开放数据源，教你个⽅法，开放数据源可以从两个维度来考虑，⼀个是单位的维度，⽐如政府、企业、⾼校；⼀个就是⾏业维度，⽐如交通、⾦融、能源等领域。这⽅⾯，国外的开放数据源⽐国内做得好⼀些，当然近些年国内的政府和⾼校做开放数据源的也越来越多。⼀⽅⾯服务社会，另⼀⽅⾯⾃⼰的影响⼒也会越来越⼤。⽐如，下⾯这张表格列举的就是单位维度的数据源。所以如果你想找某个领域的数据源，⽐如⾦融领域，你基本上可以看下政府、⾼校、企业是否有开放的数据源。当然你也可以直接搜索⾦融开放数据源。如何使⽤爬⾍做抓取爬⾍抓取应该属于最常见的需求，⽐如你想要餐厅的评价数据。当然这⾥要注重版权问题，⽽且很多⽹站也是有反爬机制的。最直接的⽅法就是使⽤Python编写爬⾍代码，当然前提是你需要会Python的基本语法。除此之外，PHP也可以做爬⾍，只是功能不如 Python完善，尤其是涉及到多线程的操作。在Python爬⾍中，基本上会经历三个过程。 1. 使⽤ Requests 爬取内容。我们可以使⽤ Requests库来抓取⽹页信息。Requests 库可以说是 Python 爬⾍的利器，也就是Python 的HTTP 库，通过这个库爬取⽹页中的数据，⾮常⽅便，可以帮我们节约⼤量的时间。 2. 使⽤ XPath 解析内容。XPath 是XML Path的缩写，也就是XML 路径语⾔。它是⼀种⽤来确定 XML ⽂档中某部分位置的语⾔，在开发中经常⽤来当作⼩型查询语⾔。XPath可以通过元素和属性进⾏位置索引。 3. 使⽤ Pandas 保存数据。Pandas 是让数据分析⼯作变得更加简单的⾼级数据结构，我们可以⽤ Pandas 保存爬取的数据。最后通过 Pandas再写⼊到XLS或者MySQL等数据库中。 Requests、XPath、Pandas是Python的三个利器。当然做Python爬⾍还有很多利器，⽐如Selenium，PhantomJS，或者⽤ Puppteteer这种⽆头模式。另外我们也可以不编程就抓取到⽹页信息，这⾥介绍三款常⽤的抓取⼯具。⽕车采集器已经有13年历史了，是⽼牌的采集⼯具。它不仅可以做抓取⼯具，也可以做数据清洗、数据分析、数据挖掘和可视化等⼯作。数据源适⽤于绝⼤部分的⽹页，⽹页中能看到的内容都可以通过采集规则进⾏抓取。⼋⽖鱼也是知名的采集⼯具，它有两个版本，⼀个就是免费的采集模板，还有⼀个就是云采集（付费）。免费的采集模板实际上就是内容采集规则，