* 表面关系:性别=〉录取率,实际关系:性别=〉系别=〉录取率 * * * 定距尺度:测度对象特征的间距,不能做绝对比较(相对于0点)。 具体方法 聚类分析:按距离远近分类 判别分析: 给定样本定类——亲疏判别 主成分分析、因子分析、对应分析:找出主要因素,化简数据 方差分析 多元回归分析 结构方程模型 Grouping Discriminating Principle Component, Factoring,Correspondence Inferring推断 exploring 探索数据模式 Structural Equation Model 课程重点 强调方法的应用而非理论推导 强调方法的内涵与几何解释 强调SPSS软件的应用和结果的解释 牢记: 从数据中获取信息没有确定的方法 具体问题具体分析:把握机理 三、多元数据的描述 数据的计量尺度(measurement scale):告诉我们从数据中可获得哪些信息。 品质数据:计算无意义 定类尺度:按穷尽和互斥原则将对象某种特征归类 通常用虚拟变量表示: 定序尺度 对象特征等级或顺序差别的测度 三、多元数据的描述 数值数据 定距尺度:测度对象特征的间距,不能做绝对比较。 定比尺度:即可测度间距,又可做绝对比较。 数值数据的矩阵表示: 样本数n,变量数p 数据的矩阵描述 注:若无特别说明,向量均指列向量 四、统计基本知识回顾:单变量分析 描述统计 参数估计 假设检验 1. 描述统计 描述数据的集中趋势 均值 中位数 众数 描述数据的离散趋势 极差 方差、标准差 变异系数 THANK YOU SUCCESS * * 可编辑 异常点 均值的代表性 目的:描述数据分布与正态分布的可能偏离 正态分布具有许多有利于统计的特性 一般独立随机事件的分布都服从正态分布 人的身高,产品质量 偏度:用来度量对称性的指标 峰度:刻画一个分布陡峭或平缓程度的指标 正态 右偏 左偏 正态 比正态更陡 比正态平缓 分布的偏度与峰度 标准化变量 对于任意变量x,将观测值转换成相应Z值的过程称为将该变量标准化,所得到的变量Z称为标准化变量。 相对度量 例:地区供电局数据 基本概念 2、参数估计 总体 样本 变量 观测值 华北电大的所有学生 华北电大的所有学生中所有抽取的100名学生 基本概念(续) 参数 统计量 精确度 准确度 偏误 标准差:小 标准误:小 标准差:大 标准误:小 标准误差 standard error 标准差 standard deviation 抽样推断: 从样本统计量推断总体参数 参数估计:在未知总体参数的情况下,利用样本统计量来估计总体参数的方法。 参数点估计 参数区间估计 假设检验:先对总体参数作一个假设,然后通过搜集样本数据,用样本统计量判断对总体参数的假设是否成立 参数估计:总体参数的点估计 假设在总体X中, θ为未知参数(均值、方差、成数等)。由样本(x1、x2…xn )构造统计量 来估计未知参数θ,称 为θ的点估计量。 将某次抽样的样本观测值,代入 即得该估计量的一个点估计值 。 方法 矩估计法 极大似然估计法 最小二乘法 设 为待估计的总体参数, 为样本统计量,则 的优良标准为: 点估计量的优良性标准 指样本统计量抽样分布的平均值等于被估计的总体指标 无偏性 ? 设 和 是总体指标?的两个无偏估计量, 有效性 若 ,则称 为比 更有效的估计量 如果随着样本容量n的增大,样本估计量在概率意义下越来越接近于总体真实值,则称该估计量是待估参数的一致估计量。 一致性 一致性是对一个估计量的最起码要求。“如果你在n趋于无穷大时还不能正确地得到它,那你就不应该做这件事”——葛兰杰 ? n1 n2 n3 n1n2n3 置信度(1-?)反映了估计的可靠程度。根据样本指标和抽样极限误差可以得到满足一定置信度的总体指标的可能范围 定义 设总体参数为?,?L、?U为由样本确定的两个统计量,对于给定的?(0?1),有P(?L≤?≤?U)=1-?,则称(?L, ?U)为参数?的置信度为1-?的置信区间 参数估计:参数的区间估计 可靠度 精确度 为什么要做区间估计? 任意抽出一个妇女,试猜测其体重,猜对赢50元,猜错输50元 如何猜?输赢概率如何? 例:20个妇女的体重资料如表, 平均体重:123.6pound,标准差:15.5 猜均值上下一个标准差:赢的概率?输的概率 猜均值上下两个标准差:输赢概率? 目的 前提条件 置信度的置信区间 估计总体 均值 正态总体 方差已知 估计总体 均值 正态总体 方差未知 (小样本) 估计
原创力文档

文档评论(0)