- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据采集:如何⾃动化采集数据?
上⼀节中我们讲了如何对⽤户画像建模,⽽建模之前我们都要进⾏数据采集。数据采集是数据挖掘的基础,没有数据,挖掘也没有意义。很
多时候,我们拥有多少数据源,多少数据量,以及数据质量如何,将决定我们挖掘产出的成果会怎样。
举个例⼦,你做量化投资,基于⼤数据预测未来股票的波动,根据这个预测结果进⾏买卖。你当前能够拿到以往股票的所有历史数据,是否
可以根据这些数据做出⼀个预测率⾼的数据分析系统呢?
实际上,如果你只有股票历史数据,你仍然⽆法理解股票为什么会产⽣⼤幅的波动。⽐如,当时可能是爆发了SARS疫情,或者某地区发⽣
了战争等。这些重⼤的社会事件对股票的影响也是巨⼤的。
因此我们需要考虑到,⼀个数据的⾛势,是由多个维度影响的。我们需要通过多源的数据采集,收集到尽可能多的数据维度,同时保证数据
的质量,这样才能得到⾼质量的数据挖掘结果。
那么,从数据采集⾓度来说,都有哪些数据源呢?我将数据源分成了以下的四类。
这四类数据源包括了:开放数据源、爬⾍抓取、传感器和⽇志采集。它们各有特点。
开放数据源⼀般是针对⾏业的数据库。⽐如美国⼈⼝调查局开放了美国的⼈⼝信息、地区分布和教育情况数据。除了政府外,企业和⾼校也
会开放相应的⼤数据,这⽅⾯北美相对来说做得好⼀些。国内,贵州做了不少⼤胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领
域的数据量。
要知道很多研究都是基于开放数据源进⾏的,否则每年不会有那么多论⽂发表,⼤家需要相同的数据集才能对⽐出算法的好坏。
爬⾍抓取,⼀般是针对特定的⽹站或App。如果我们想要抓取指定的⽹站数据,⽐如购物⽹站上的购物评价等,就需要我们做特定的爬⾍抓
取。
第三类数据源是传感器,它基本上采集的是物理信息。⽐如图像、视频、或者某个物体的速度、热度、压强等。
最后是⽇志采集,这个是统计⽤户的操作。我们可以在前端进⾏埋点,在后端进⾏脚本收集、统计,来分析⽹站的访问情况,以及使⽤瓶颈
等。
知道了有四类数据源,那如何采集到这些数据呢?
如何使⽤开放数据源
我们先来看下开放数据源,教你个⽅法,开放数据源可以从两个维度来考虑,⼀个是单位的维度,⽐如政府、企业、⾼校;⼀个就是⾏业维
度,⽐如交通、⾦融、能源等领域。这⽅⾯,国外的开放数据源⽐国内做得好⼀些,当然近些年国内的政府和⾼校做开放数据源的也越来越
多。⼀⽅⾯服务社会,另⼀⽅⾯⾃⼰的影响⼒也会越来越⼤。
⽐如,下⾯这张表格列举的就是单位维度的数据源。
所以如果你想找某个领域的数据源,⽐如⾦融领域,你基本上可以看下政府、⾼校、企业是否有开放的数据源。当然你也可以直接搜索⾦融
开放数据源。
如何使⽤爬⾍做抓取
爬⾍抓取应该属于最常见的需求,⽐如你想要餐厅的评价数据。当然这⾥要注重版权问题,⽽且很多⽹站也是有反爬机制的。
最直接的⽅法就是使⽤Python编写爬⾍代码,当然前提是你需要会Python的基本语法。除此之外,PHP也可以做爬⾍,只是功能不如
Python完善,尤其是涉及到多线程的操作。
在Python爬⾍中,基本上会经历三个过程。
1. 使⽤ Requests 爬取内容。我们可以使⽤ Requests库来抓取⽹页信息。Requests 库可以说是 Python 爬⾍的利器,也就是Python
的HTTP 库,通过这个库爬取⽹页中的数据,⾮常⽅便 ,可以帮我们节约⼤量的时间。
2. 使⽤ XPath 解析内容。XPath 是XML Path的缩写,也就是XML 路径语⾔。它是⼀种⽤来确定 XML ⽂档中某部分位置的语⾔,在
开发中经常⽤来当作⼩型查询语⾔。XPath可以通过元素和属性进⾏位置索引。
3. 使⽤ Pandas 保存数据。Pandas 是让数据分析⼯作变得更加简单的⾼级数据结构,我们可以⽤ Pandas 保存爬取的数据。最后通过
Pandas再写⼊到XLS或者MySQL等数据库中。
Requests、XPath、Pandas是Python的三个利器。当然做Python爬⾍还有很多利器,⽐如Selenium,PhantomJS,或者⽤
Puppteteer这种⽆头模式。
另外我们也可以不编程就抓取到⽹页信息,这⾥介绍三款常⽤的抓取⼯具。
⽕车采集器已经有13年历史了,是⽼牌的采集⼯具。它不仅可以做抓取⼯具,也可以做数据清洗、数据分析、数据挖掘和可视化等⼯作。
数据源适⽤于绝⼤部分的⽹页,⽹页中能看到的内容都可以通过采集规则进⾏抓取。
⼋⽖鱼也是知名的采集⼯具,它有两个版本,⼀个就是免费的采集模板,还有⼀个就是云采集(付费)。
免费的采集模板实际上就是内容采集规则,
您可能关注的文档
最近下载
- 高中物理讲义.pdf VIP
- 福禄克Fluke MDA-510 和 MDA-550 电机驱动分析仪MDA-550 MDA-510 安全须知.pdf
- 2023-2024学年七年级上期期中语文试题(含答案) .pdf VIP
- 精品在线课程汇报定稿.ppt
- 爱祖国爱家乡爱母校.pptx VIP
- 秋天的快乐PowerPoint演示文稿.pptx
- 25题技术架构师岗位常见面试问题含HR问题考察点及参考回答.pdf VIP
- 浙江省湖州市2023-2024学年高一上学期期末考试语文试题 Word版含解析.docx
- 企业性质(科斯).doc VIP
- 2023年软考初级信息系统运行管理员历年经典真题及解析part.docx
文档评论(0)