- 25
- 0
- 约2.49万字
- 约 18页
- 2017-09-12 发布于重庆
- 举报
地区GDP 数据的协调性评估
——基于随机效应模型和随机森林模型的研究
湖北省统计局 宋雪、舒猛、闵胜男
摘要:
本文旨在探讨地区GDP 增速与相关统计指标之间的协调性关
系。文章选择了我国31 个地区2001 年至2010 年间的统计数据。
根据是否考虑时间因素,对地区GDP 数据建立了两个不同模型进
行拟合:基于面板数据的随机效应模型和基于机器学习随机森林
回归模型,找出了与GDP 增速相关性较高的指标,评估了部分地
区GDP 数据的协调性。面板数据模型的优点在于考虑了时间因素
和地区差异性;随机森林模型忽略了地区和时间的特异性,通用
性更好。同时本文利用随机森林模型的敏感度分析对不协调数据
的成因进行了研究,提出了对今后地区GDP 数据协调性评估的对
策和建议。
关键词:协调性评估 随机效应模型 随机森林模型 敏感度分析
一、问题的提出
随着中国政府统计日益公开透明, 统计数据越来越多的受到社会各界的关
注,统计数据的协调性也成为众多国内外研究机构和学者争议的热点问题。所谓
统计数据协调性是指统计指标间需满足的逻辑关系和量化关系。近年来,不同学
者运用多种方法对我国统计数据的协调性进行评估,特别是对GDP 增长与其它宏
观经济指标匹配性进行研究。其研究方法主要集中在以下两个方面:
一是基于相关性的逻辑性评估方法。多应用回归分析、时间序列、指数法等
传统计量经济模型分析经济指标与 GDP 增长的相关性。例如,Klein 和
Ozmucur(2002)选取了来源独立且尽可能多的与经济增长相关的 15 个有代表性
的指标,使用了主成分回归方法,表明 15 个指标的变动与中国官方估计的 GDP
[1]
增长的相关关系完全符合经济规律,从而认为中国经济增长数据是可靠的 。赵
盈(2006)以我国1954~2004 年GDP 的时间数据资料为依据,采用B—J 方法,建
立ARIMA 模型,以揭示我国GDP 增长变化的规律性,并对回归结果进行实证分析,
[2]
由此对我国GDP 增长情况做出分析 。
二是基于异常值的评估。基于异常值的评估方法是运用统计方法识别出统计
数据的异常值,并结合异常值产生的背景判断其是否产生于统计数据质量问题。
例如,朱文杰(2007)运用多维向量序列投影法,对中国的GDP 增长和消费增长
[3]
进行实践检验,试图诊断出其中异常值 ;刘洪和黄燕(2009)运用经典的最小二
乘方法(OLS)估计得到生产函数,并通过学生化残差、Cook 的D 统计量、DIFFITS
统计量等经典的诊断统计量,对我国某地区历年地区生产总值数据中存在的异常
[4]
点进行了诊断 。
本文在总结以上方法的基础上,对我国地区层面GDP 数据与其它宏观经济指
标的协调性进行了进一步的研究。文章选取了我国31 个地区2001 年-2010 年的
数据,应用面板数据模型和随机森林模型找出GDP 增速与 10 个主要宏观经济指
标的量化关系,利用模型结果对地区GDP 数据的协调性进行了评估,并通过变量
敏感度分析,指出与GDP 不协调的具体统计指标。
二、数据的处理
基于研究需要,我们在大赛组委会给定数据集中共提取了 27 个变量,剔除
时间段较短的城镇汽车保有量和财政支出,剩下的25 个变量自2001 年起数据较
为齐全。除GDP 增速、CPI、PPI、IPI、规上工业增速本身已是增速,我们对剩
余变量进行了增速后自然对数(ln(S /S ))处理,获得了31 地区25 个变量10
t t-1
年的历史资料,共310 条记录,包含了各地区的主要经济指标。
部分数据在研究时间段内的前2-3 年数据缺失。常见的处理缺失数据的方法
有平均值替代、K 近邻、插值等,本文数据缺失值为时间序列的前几个,且缺失
数据较少,我们可认为这些年份统计指标无变化,对数处理后相当于增速为0。
原创力文档

文档评论(0)