横截面大数据、时间序列大数据、面板大数据.doc

横截面大数据、时间序列大数据、面板大数据.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
实用标准文案 精彩文档 横截面数据、时间序列数据、面板数据 横截面数据:(时间固定) 横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。横截面数据是按照统计单位排列的。因此,横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同一时间截面上的数据。 如: 时间序列数据:(横坐标为t,纵坐标为y) 在不同时间点上收集到的数据,这类数据反映某一事物、现象等随时间的变化状态或程度。 如: 面板数据:(横坐标为t,斜坐标为y,纵坐标为z) 是截面数据与时间序列数据综合起来的一种数据类型。其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data译作“面板数据”。 举例: 如:城市名:北京、上海、重庆、天津的GDP分别为10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。 如:2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。 如:2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为: 北京市分别为8、9、10、11、12; 上海市分别为9、10、11、12、13; 天津市分别为5、6、7、8、9; 重庆市分别为7、8、9、10、11(单位亿元)。 这就是面板数据。 关于面板数据的统计分析 ? 在写论文时经常碰见一些即是时间序列又是截面的数据,比如分析1999-2010的公司盈余管理影响因素,而影响盈余管理的因素有6个,那么会形成如下图的数据 公司1 公司2 公司100 因素1 …… 因素6 盈余管理程度 因素1 …… 因素6 盈余管理程度 因素1 …… 因素6 盈余管理程度 1999 2000 …… 2010 ?????如上图所示的数据即为面板数据。显然面板数据是三维的,而时间序列数据和截面数据都是二维的,把面板数据当成时间序列数据或者截面数据来处理都是不合适的。 ?????处理面板数据的软件较多,一般使用Eviews6.0、Stata等。个人推荐使用Stata,因为Stata比较适合处理面板数据,且个性化强。以下以Stata11.0为例来讲解怎么样处理面板数据。 由于面板数据的存储结构与我们通常使用的存储结构不太一样,所在统计分析前,最好在excel中整理一下数据,形成如下图所示的数据 年份 公司名称 因素1 因素2 …… 因素6 盈余管理程度 1999 公司1 2000 公司1 …… 公司1 2010 公司1 1999 公司2 2000 公司2 …… 公司2 2010 公司2 变量定义及输入数据 启动Stata11.0,Stata界面有4个组成部分,Review(在左上角)、Variables(左下角)、输出窗口(在右上角)、Command(右下角)。首先定义变量,可以输入命令,也可以通过点击Data----Create new Variable or change variable。 特别注意,这里要定义的变量除了因素1、因素2、……因素6、盈余管理影响程度等,还要定义年份和公司名称两个变量,这两个变量的数据类型(Type)最好设置为int(整型),公司名称不要使用中文名称或者字母等,用数字代替。定义好变量之后可以输入数据了。数据可以直接导入(File-Import),也可以手工录入或者复制粘贴(Data-Data Edit(Browse)),手工录入数据和在excel中的操作一样。 以上面说的为例,定义变量 year、 company、 factor1、 factor2、 factor3、 factor4、 factor5、 factor6、 DA。 变量company 和year分别为截面变量和时间变量。显然,通过这两个变量我们可以非常清楚地确定panel data 的数据存储格式。因此,在使用STATA 估计模型之前,我们必须告诉它截面变量和时间变量分别是什么,所用的命令为tsset,命令为: tsset company year 输出窗口将输出相应结果。 由于面板数据本身兼具截面数据和时间序列二者的特性,所以对时间序列进行操作的运算同样可以应用到面板数据身上。这一点在处理某些数据时显得非常方便。如,对于上述数据,我们想产生一个新的变量Lag _factor1 ,也就是factor1 的一阶滞后,那么我们可以采用如下命令: gen

您可能关注的文档

文档评论(0)

dmz158 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档