《经济学家也要学点网络爬虫技术》.pdfVIP

下载本文档

5
0
约9.85千字
约 10页
2016-01-25 发布于河南
举报
版权申诉

《经济学家也要学点网络爬虫技术》.pdf

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

经济学家也要学点网络爬虫技术厦门大学经济学院钟锃光1 1 经济学实证研究中的的网络数据以及网络数据的特点随着科技的发展，人们正面临信息爆炸。2010 年，零售巨头沃尔玛每小时都要处理 100 多万笔交易，为数据库上传大概 2,500 兆数据，相当于美国国会图书馆存书数的 167 2 倍。沃尔玛在2011 年收购了数据处理公司Kosmix ，成立了沃尔玛实验室，专门针对大数据开发了一系列的产品。可想而知，这个世界上数据量多到难以想像的地步，而且还在不断地快速增长，它们对世界的影响也越来越大。与此同时，经济学家的研究也越来越离不开数据的支持。以 2012 年第 1 期的《经济研究》为例，11 篇学术文章，除了一篇纯理论研究的文章外，其余 10 篇均引用了各种数据。在中国经济学工作者常常访问的论坛里也充斥大量关于数据的下载、交换和交易的信息。为了获取所需的数据，经济学家不得不投入大量资金来搜集、购买各种数据库。如果数据已经被很好的整理，即使需要高价购置，对经济学家而言已属幸运，实际上很多研究所需的数据往往无处寻觅或者分散在多处。好在随着互联网的发展，电子商务、电子政务的逐渐推广，部分数据在网站上直接公开了，只是并未以良好的格式加以组织、对研究者不够友好。笔者在十年前做一个厦门市场房地产交易价格的论文时就碰到无法获取交易价格的问题，转而向多家在线房地产代理商索取数据，结果当然可想而知。被拒绝后，笔者对在线房地产代理商的网站进行了研究，并决定采用爬虫技术（web crawler ）收集数据并最后完成了任务。很多互联网上的“大数据”都可以类似的方法收集，比如，地方政府出让土地时需要在报纸和互联网上公告地块信息、很多城市的空气监测站发布每天甚至每小时的空气质量数据、各个城市的天气预报数据、携程网上的机票价格、Google 1 钟锃光，获厦门大学MBA 学位，高级实验师，现为厦门大学经济学院实验教学中心副主任兼王亚南经济研究院技术中心主任；电子邮箱：@ 。 2 Data, data everywhere, The Economist, Feb 25th, 2010. trend 提供的搜索信息等，这些数据都已经被搜集来做经济学研究。比如，斯坦福大学经济系的Scott Baker 就用Google trend 的数据来研究失业保险对工作搜寻强度的影响。3 2 如何利用网络爬虫技术有效率地抓取网上数据 2.1 爬虫技术简介爬虫（web crawler ）是一种专门的程序，用于在互联网上自动抓取内容。常见的爬虫都来自搜索引擎公司。在互联网刚刚兴起的 1994 年，yahoo 采用了层次归类的方法来索引当时的互联网站点，在站点数目较少的时候，手工还能处理为数不多的数据，但随着互联网的发展，就需要自动化的工具来收集数据、更新内容、根据网站内容的链接来发现新的页面和网站，这时爬虫就变得必不可少了。早期的爬虫主要功能是索引网站中的文本内容，随着技术的发展，爬虫的功能也越来越强，例如对图片、视屏与内容的关联，对各种数据格式（如pdf 、doc、xls ）的解析等。在经济学研究中，其实并不需要像搜索引擎公司那样开发一种功能特别强大的爬虫，需要的是使用爬虫技术，能方便、大批量的下载网站上的数据，并且能够把数据整理成实证研究所需要的格式。 2.2 爬虫技术原理用户在访问网页的时候，可能是打开某个网站作为起步，然后通过在浏览器上显示的该网站的内容，再加以浏览、点击等等，从而在不同的站点间跳转并获取信息。个人和服务器之间的交互以浏览器作为中介，浏览器把用户的点击，输入转化成 REQEUST （请求）并传输给服务器，服务器收到请求后，根据请求的内容，按需生成浏览器可以识别的数据格式，作为RESPONSE (响应)传输给浏览器，浏览器解析服务器传递的内容，并把它显示成图文并茂的页面，这就完成了一次交互。可以看到，一次交互由以下几个步骤组成： 3 Scott Baker and Andrey Fradkin, 2013, The Impact of Unemployment Insurance on Job Search: Evidence from Google Search Data, 网址是/~srbaker/Papers/BakerFradkin_JobSearch