- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一二章、绪论
现代统计学之父:皮尔逊
描述统计与推断统计
描述统计主要研究如何整理、描述数据的特征。
推断统计主要研究如何通过局部数据所提供的信息推论总体特征。
变量类型
定类变量:如,性别、学号、颜色类别、教学方法。
特征:没有绝对零点,没有测量单位。变量值之间有“相等”和“不等”的关系,但没有大小之分,不能比较大小,更不能进行加、减、乘、除四则运算。
定序变量:程度、等级和水平。如,比赛名次、品质等级、喜爱程度
特征:既无零点、又无测量单位。变量的值之间具有“等于”或“不等于”关系、序关系(优于、先于、劣于、后于等),四则运算没有意义。
定比变量:除了可以说出名称和排出大小,还能算出差异大小量的变量。
如温度、测验成绩、智商。
特征:有相等的测量单位,无绝对零点。考试成绩为零不表示没有一点知识。可进行加减运算,乘除运算则无意义。
定距变量:如身高、重量、学生人数。既有测量单位,又有绝对零点,可进行计算。
降低偏差:利用随机抽样
降低变异性:用大一点的样本
描述统计
一、频数:某一事件在某一类别中出现的次数。
频数分布类型:正态,正(负)偏态,正(反)J形,U形分布。
分布性质;集中(分散)程度,偏度和峰度不同。
偏态系数:数据的对称性
峰态系数:数据的峰度
二、集中量数:
包括算术平均数、中位数、众数(用众数代表一组数据,可靠性较差,不过,众数不受极端数据的影响,并且求法简便)、加权平均数、几何平均数、调和平均数。
组数据中有少数数据偏大或偏小,数据的分布呈偏态时,应用几何平均数。
算数平均数的性质(算法必须会):
(1)每一个变量加减或乘除一个数之后,均值也相应增加。
(2)变量值与均值的离均差之和为零。
(3)变量值与均值的离均差平方和为最小值。
三、离散量数:全距R、四分位差Q、平均差A.D、方差(样本统计量总体参数)、标准差(s或者SD)、百分位差
全距:全部数据中的最大值与最小值的差 ,描述了数据分布的范围 。
四分位差(Q):样本中间50%的人的全距的一半。是一个距离,Q越大,表示样本中各样品越不整齐.
平均差:全部数据与均值绝对离均差的均值。
方差:各个数据偏离中心的程度。方差越大,数据波动越大。
标准差:方差的算术平方根。
自由度:自由度是指当以样本的统计量来估计总体的参数时,样本中独立或能自由变化的数据的个数。
标准分数:以标准差为单位表示一个原始分数在团体中所处的相对位置,即原始分数在均值以上或以下几个标准差的位置。
性质:标准分数的均值为0,标准差为1。没有实际单位。
应用:
(1)、比较不同性质的观测值在各自数据分布中相对位置的高低。如身高与体重。
(2)计算不同质的观测值的总和或者均值,以表示在团体中的相对位置。如高考的标准分。
(3)做线性转换后,表示标准测验分数。如IQ。
图表
条形图,用于定性数据。
直方图与多边图:用于定量数据
时序图:反映事物变化趋势
饼图:定性数据的多少或构成比例
散点图:两个变量的变化关系和变化方向。
茎叶图:保留小样本连续变量的原貌。
三线表的组成要素包括:表序、表题、项目栏、表体、表注
五、随机变量分布
正态分布------------------样本均值的分布
正态分布曲线下的面积:曲线高度是频数(Y),曲线下面积则是累积频数P(也视作随机变量出现的概率)。X轴上的截距为Z。
其中,μ决定曲线的位置,σ决定曲线的“胖瘦”。
无论各分布的均值与标准差的值是多少,x取值以下特定区域的概率(面积)是确定的,即:
正负一个标准差,占68.27%,两个95.45% ,三个99.73%
标准正态分布:均值为0,标准差为1.
总体服从正态分布N ~ (μ, )时,来自该总体的所有容量为n的样本的均值?X也服从正态分布,?X的期望为μ,方差为σ2/n。即?X~N(μ,)
平均数的标准误
标准误衡量了抽样误差(sampling error)的大小。所谓抽样误差是指由抽样引起的样本统计量与总体参数间的差异。
标准误越小,统计量与参数越接近,样本对总体越有代表性,用统计量推断参数的可靠度越大,所以,标准误是推断统计可靠性的重要指标。
卡方分布:变量相互独立,且服从分布的随机变量。称随机变量服从自由度为为n的卡方分布。记做,
卡方分布:样本方差的分布(样本方差的分布)
T分布:随机变量X服从N(0,1),Y服从,且相互独立,则随机变量服从自由度为n的t 分布,记做t t(n)..
来自一个正态总体:
来自两个正态总体
为两样本的混合标准差。
T分布的均值为0,方差为n/(n-2).
t 统计量是参数估计与假设检验的基础。
特点:当样本容量趋于,t分布为正态分布,方差为1,
随自由度的减少,离散程度(方差)增大,分布中间变低,尾部变高。
F分布:----------两样本方差的比
F
您可能关注的文档
- 习题参考答案第4章词法分析(注:部分解题过程略)详解.doc
- 习题答案【实验4电子经纬仪的认识和使用】详解.doc
- 习题答案1-9详解.doc
- 习题课(电磁部分)详解.doc
- 习题课:国民收入核算详解.doc
- 洗涤剂溶液处理后的纺织材料与纤维的颜色动力学变化详解.doc
- 洗衣操作流程手册详解.doc
- 铣床、加工中心高速、高精加工的参数调整详解.doc
- 铣床X-Y工作台数控化改造详解.doc
- 铣床基本指导书详解.doc
- Unit 6 Get Close to Nauture Lesson 22 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 23 -课件-2025-2026学年度北京版英语四年级上册.pptx
- 2025食品饮料行业AI转型白皮书-2025食品饮料行业数智化转型领先实践.pdf
- Unit 7 Be Together Lesson 24 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 25 -课件-2025-2026学年度北京版英语四年级上册.pptx
- Unit 7 Be Together Lesson 26 -课件-2025-2026学年度北京版英语四年级上册.pptx
- 2025年广州体育职业技术学院单招职业倾向性考试题库完美版.docx
- 软件公司员工考勤异常处理.doc
- 2025年土地登记代理人之土地登记相关法律知识题库500道及完整答案【有一套】.docx
- 2025年四平职业大学单招职业适应性考试题库含答案.docx
文档评论(0)