第一节b精彩的数据.pptVIP

  • 2
  • 0
  • 约3.43千字
  • 约 30页
  • 2016-12-03 发布于重庆
  • 举报
第一节b精彩的数据

第一节 精彩的数据 整理人:曹阳 1.1 无处不在的数据 数据,无处不在的数据 信息经历了从匮乏到过剩的过程。肯尼斯·库克耶(Kenneth Cukier)说,这既带来了许多好处,也很让人头疼。 我们的每一天的生活都离不开数据 我们生活在一个信息爆炸的时代,谁掌握了数据和数据的分析能力谁就掌握了时代的脉搏。 1.2 数据的分类 1.数据的类型 (一)定性数据(也称品质数据):是说明事物的品质特征,是不能用数值表示的,其结果通常为类别,这类数据是由定类尺度和定序尺度计量形成的。 (二)定量数据(也数称量数据):说明的是现象的数量特征,是能够用数值来表现的,这类数据是由定距尺度和定比尺度计量形成的。 2.按计量尺度分类 定类数据:只能归于某一类别的非数字型数据。 定序数据:只能归于某一有序类别的非数字型数据。 定距数据:不仅能将事物分为不同类型并进行排序,而且能指出类别之间的差距是多少。 定比数据:与定距尺度属于同一层次,其计量的结果也表示为数值。 3.按时间状况分类 截面数据:在相同或近似相同时间点上收集的数据。 时间序列数据:在不同时间上收集到的数据。 面板数据 例如我国 2003 年农业,建筑业,交运邮电,批零餐饮的产值分别是 17090, 8170, 6720, 9030 亿元,这组数据就是截面数据。 描述多指标对象在同一状态下的 例如我国 1999 年到 2003 年的 GDP 分别是 80580 ,88250, 95730,103930,116250 亿元,这组数据是时间序列数据。 描述对象在不同状态(特别是时间)下的数据。 试着找一组时间序列数据和面板数据? SPSS数据文件 (一)数据文件的打开和保存 (二)数据文件的建立 1.定义变量 2.输入数据(第1章数据集) 3.导入外部文件 excel文件 txt文本文件 1.3 数据的预处理 (一)排序 数据排序就是将数据按一定的顺序进行排列,为研究者对数据进行数据纠错、归类、分组等提供依据。 画直方图,求中位数,经验分布函数等,都需要对数据先排序。 一般按从小到大排序。 最小值记为: 最大值记为: (二)标准化 数据标准化主要功能就是消除变量间的量纲关系,从而使数据具有可比性,可以举个简单的例子,一个百分制的变量与一个5分值的变量在一起怎么比较?只有通过数据标准化,都把它们标准到同一个标准时才具有可比性,一般标准化采用的是Z标准化,即均值为0,方差为1,当然也有其他标准化,比如0--1标准化等等,可根据自己的研究目的进行选择。 (三)数据变换 为使数据反映的规律更清晰,使计算简单或减少误差等目的常需对原样本值 变换, 对数变换 反映投资回报率。 线性变换 中心化变换 标准化变换 1.4 常用统计指标 描述集中趋势的特征数 描述离散趋势的特征数 描述偏度和峰度的特征数 计量资料(定量资料、数值变量资料) 总体:有限或无限个(定量)变量值 样本:从总体随机抽取的n个变量值: n为样本例数(样本大小、样本含量) 1.描述集中趋势的特征数(平均指标) 总称为平均数(average)反映了资料的集中趋势( central tendency )。常用的有: 1.算术均数(arithmetic mean),简称均数 (mean) 2.众数(mode) 3.中位数 (median) 1.平均数(mean) 符号: n 个样本 计算公式: 3.中位数(median) 意义:中位数是将一批数据从小至大排列后位次居中的数据值,反映一批观察值在位次上的平均水平。 适用条件:适合各种类型的资料。尤其适合于①大样本偏态分布的资料; ②资料有不确定数值;③资料分布不明等。 2. 描述离散趋势的特征数(变异(variation)指标) 反映数据的离散度( Dispersion )。即个体观察值的变异程度。常用的指标有: 1. 极差(Range) (全距) 2. 百分位数与四分位数间距 Percentile and Quartile range 3. 方差 Variance 4. 标准差 Standard Deviation 5. 变异系数 Coefficient of Variation 1. 极差(Range) (全距) 符号:R 意义:反映全部变量值的变动范围。 优点:简便,如说明传染病、食物中毒的最长

文档评论(0)

1亿VIP精品文档

相关文档