统计学复习重点贾俊平2.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
统计学复习重点贾俊平2

二手数据的特点:搜集比较容易,采集数据成本低,能很快得到。局限性不是为特定研究问题产生有欠缺,需要评估。、 二手数据的评估:谁收集,目的,怎么搜集,什么时侯收集? 概率抽样与非概率抽样比较:性质不同,非概不依据随机原则选样本,样本统计量分布不确切,无法使用样本的结果对总体相应参数进行推断。操作简便,时效快,成本低,专业要求不很高。概率抽样依据随机原则抽选样本,理论分布存在,对总体有关参数可进行估计,计算估计误差,得到总体参数的置信区间。提出精度要求。 数据收集方法的选择:抽样框中有关信息,目标总体特征,调查问题的内容,有形辅助物的使用,实施调查的资源,管理与控制,质量要求 实验中的若干问题:人的意愿,心理问题,道德问题 回答误差:理解误差,记忆误差,有意识误差 误差的控制:抽样误差是抽样随机性带来的,不可避免可以计算,改大样本量。选择合适改进的抽样框,设计好的调查问卷,调查过程的质量控制。 抽样误差因素:样本量大小,总体变异性大大 抽样方式选 组织形式 数据审核的目的:检查数据是否有错误,原始数据完整性准确性,二手适用性时效性。 数据筛选的目的:根据需要找出符合特定条件的某类数据。 数据排序是按一定的顺序将数据排列,以便研究者通过浏览数据发现一些明显的特征或趋势,找到解决问题的线索。 数据透视表作用:可以对数据表重要信息按使用者的习惯或分析要求进行汇总和作图,形成一个符合需要的交叉表 数据分布表的制作步骤:确定组数,确定组距,根据分组整理成频数分布表,上组限不在内不重不漏 直方图与条形图的差别:首先条形图是用条形的长度表示各类别频数的多少,宽度是固定的;直方图用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,高宽均有意义。其次由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后条形图主要用于展示分类数据,直方图主要用于展示数值型数据。 茎叶图与直方图的区别:茎叶图既能给出数据的分布情况,又能保留原始数据的信息。直方图通常适用于批量数据,茎叶图小批量数据。 饼图与环形图差别:环形图中空洞,样本或总体中每一部分用环中的一段表示。饼图只能显示一个样本或总体各部分所占的比例 ,环形图可以同时绘制多个,有利比较研究。 好图形具备特征:显示数据,读者注意集中图形内容,避免歪曲,强调数据之间比较,服务明确目的,对图形统计描述与文字说明。 图形优劣准则:好图应当使复杂的观点简明、确切、高效阐述,最短时间内以最少的笔墨给读者提大信息,多维,表述数据真实情况。 制作统计表设计注意:合理安排表结构,包括表号总标题单位,上下两横线粗,中间细,必要注释、来源。 数据分布的特征三方面:数据分布的集中趋势,离散程度,形状 众数的特点:不受极端值影响,分布角度上看是具有明显集中趋势点的数值,众数可能不存在也可能有多个。 众数、中位数和平均数的关系:从分布角度看,众数M0是最高峰值,中位数Me是数据中间位置上值,平均数是全部数据的算术平均。左偏XMeMo 众数、中位数和平均数的特点与应用场合:众数是一组数据的峰值,不受极端值影响,缺点是不唯一,在数据量较多时才有意义,数据量少时不宜,主要作分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受极端影响,数据分布偏斜程度较大时,中位数好,主要适合作顺序数据的集中趋势测度值。 平均数是对数值型数据计算的,利用了全部数据信息,应用广泛,数据呈对称或接近对称分布时3个代表值接近相等,此时选择平均数作为集中趋势代表值,其主要缺点是易受数据极端值的影响。对于偏态分布的数据,平均数的代表性较差。偏态程度较大数据用中位数或众数比平均好。 异众比率的应用场合:主要用于衡量众数对一组数据的代表程度,大,代表性差。主要适合分类数据的离散程度。顺序数据和数值型也可。 标准分数的性质:平均数为0,标准差为1 经验法则:一组数据对称分布时,约有68%的数据在平均数1个标准差范围内。 95% 99% 切比雪夫不等式:不对称 75% 2个标准差 89% 3个 94 4个 1-1/k2 离散程度的测量值应用场合:分类数据用异众,顺序数据四分位,数值数据方差标准差,不同样本数据离散系数。 偏态系数的用途:0对称,1 -1高偏 0.5-1 -1—0.5中偏,接近0,偏度低,正值右偏。 概率的古典定义:如果某一随机试验的结果有限,而且各个结果出现可能性相等,则某一事件A发生概率为该事件所包含的基本事件数m与样本空间中所包含的基本事件数n的比值。 概率的统计定义:在相同条件下随机试验n次,某事件A出现m次(mn),则比值m/n称为事件A发生的频率。随着n的增大,该频率围绕某一常数p上下波动,且波动的幅度逐渐减小,趋于稳定,这个频率的稳定值即为事件的概率。 概率的性质:非负,规

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档