大数据时代经济学思考数据驱动范式.docVIP

大数据时代经济学思考数据驱动范式.doc

此“经济”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据时代经济学思考数据驱动范式

大数据时代经济学思考数据驱动范式   [摘要]经济学研究采用的主要模式是模型驱动范式,推动着经济学的发展。但是21世纪以来,数据量爆炸式增长,模型驱动范式难以满足经济学发展的需要,数据驱动范式应运而生,且具有十分强大的优势,将主导未来的经济学发展。   [关键词]大数据;经济学;数据驱动范式   随着科学技术的发展的进步,科学研究中的数据在数量和种类上都在不断激增,几乎每个领域都在经历数据爆炸。对于经济学研究来说,研究者也应当改变传统研究范式,对数据驱动范式进行研究以适应大数据时代的快速发展。   一、大数据时代的来临   20世纪80年代初期,大数据登上历史的舞台,阿尔文?托夫勒称之为“第三次浪潮的华彩乐章”。随着科学技术的不断进步、数据的重要性提高,大数据时代终于来临。进入90年代中期,信息产业界和学术界开始进行大数据的研究,大量有价值的成果涌现出来。直至进入21世纪,到达了数据大爆炸时代,2011年全球数据量高达1.82ZB(1ZB=2B),2012年全球纸质印刷材料仅承载不到200PB(1PB=2B)的数据量,2013年仅一天的数据量就需要1.88亿张DVD光盘才能容纳。随着大数据时代的来临,大数据爆炸式增长使得各国将大数据上升到国家级战略研究。我国对大数据技术发展时间较晚,直到2012年学术各界才开始了研究热潮。总体来说,大数据具有六大特征:(1)数据量巨大,大数据计量单位已变成ZB(2)和EB(2)。(2)价值巨大。大数据经过精确分析后具有广泛的应用范围。(3)数据类型多样,包括结构化、半结构化和非结构化数据等。(4)处理速度快。发挥大数据的最大应用价值需要将实时大量的大数据精确快速的进行分析。(5)流通灵活,大数据灵活的交易方式将会成为交易量最大的商品。(6)准确性,由于大数据的巨大样本量,经过分析处理得到的结果具有较高的真实性和准确性。大数据时代的来临,给经济学研究带来了思考和挑战,经济学研究范式也发生了改变。   二、数据驱动范式的兴起   (一)数据驱动范式的优势   首先是研究范式由“样本-总体”转变为“样本=总体”。在经济学统计研究领域,使用样本推断总体是一个重要的原则。以往的模型驱动范式采样的随机性难以实现,不能进行奇异值分析也不适合考察子类别情况。而大数据背景下的数据驱动研究范式能够避免这些问题,在数据采集、处理和分析技术上都有巨大的进步,样本即总体,可直接对数据进行分析,不需要考虑抽样方法和模型设计的缺陷。其次是不需要研究假定。数据驱动范式研究不需要假定数据必须符合正态分布等,也不需要假定因变量和自变量之间的关系。从数据原本出发,直接寻找数据之间的关系并发现其中的规律,加以总结形成研究结论。模型驱动研究流程为“假设一验证”,而数据驱动研究流程则是“发现一总结”。最后是检验方法科学,数据驱动研究采用交叉验证方法,将数据分为两类,训练集用来建模,测试集用来检验,实质上就是利用数据本身进行检验,结果的科学性和准确性得到大大提高。   (二)数据驱动范式与模型驱动范式的经济学研究案例分析   在宏观经济分析中,经济增长的“三驾马车”包括投资、消费和净出口,通过从《中国统计年鉴》中获取相关数据,这些数据形成经济增长数据集。以前人构建的中国经济增长问题研究模型为例,首先对经济增长数据集利用数据驱动范式进行随机森林模拟。随机森林算法主要是生成相互独立分布的多个随机向量θ1,θ2…,θk,以训练集为基础,建立树h(x,θi),其中i=1,2…,k。通过这个过程的多次重复生成多个彼此独立的树,由这些树来决定最终结果。这种算法的误差在于树的分类精度,还有树之间的相关性和强度,树的分类精度越大、相关性越小、强度越大,则结果误差越小,反之误差则大。随机森林算法还能度量变量的重要性,从研究结果看,以均方误差的平均递减排序依次为投资、消费和净出口,这个顺序同样代表了变量的重要性,这与我国目前宏观经济的运行趋势一致。   为检验数据驱动范式随机森林算法的准确性,采用模型驱动范式多元线性回归模拟对上述经济增长数据集进行分析,用GDP、CON、INV和NEX代表国内生产总值、消费、投资和净出口的增长率,建立多元线性回归模型如下:   从该模型的假设检验来看,拟合效果较好。各个自变量的参数估计假设检验显著水平均在0.01或者0.1,F检验也通过了显著水平0.01的检验,决定系数R2也超过了0.9。从自变量的系数能够看出,消费(CON)是我国经济增长的重要支撑力量,但我国宏观经济政策是以投资为导向的,这与实际不符,说明了这个多元线性回归模型的分析结果有可能是不准确的,需要进行检验。模型最重要的应用是进行预测,而预测的准确性需要使用交叉检验进行评价。而交叉检验应用原数据进行评价比假设检验更科学,在上述案例中,随

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档