概率统计基础02.ppt

  1. 1、本文档共37页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
概率统计基础02

统计学概述 房祥忠 北京大学概率统计系 xzfang@math.pku.edu.cn 什么是统计学? 统计学是通过搜集数据和分析数据从而得到结论和做出决断的科学。 日常生活中的统计学 顾客满意度,物价指数,失业率,平均寿命 而媒体和厂家关心的电台收视率。入户调查得到。收视率排名决定广告收费 科学研究和生产实践中的统计学 统计的主要部分都是为了解决科学研究中的问题而发展起来的 农业和生物科学,物理和化学 工程界利用统计方法进行试验设计从而得到产品可靠性和失效的模式 现代工业利用统计方法建立质量控制方法从而使产品质量稳定。 医学利用控制临床试验比较新的治疗方法和新药的效果。 遗传学家利用统计方法给出基因图和进行DNA匹配 总体、个体、样本 总体就是要研究的个体(对象)的全体。这里的个体可能是人,也可能是住户,或者产品。 统计学中我们关心总体的指标 一个样本就是能够实际观测到的总体的一个部分(子集)。 从样本到总体 大多数总体都太大,甚至个体数是无限的 花费极大人力、物力和时间。 比如中国的所有家庭就是一个很大的总体,要想了解整个中国的家庭状况,可行的办法是选取一个相对小的样本进行调查。 为了使得取出的样本没有系统偏差,需要采取所谓随机抽样的方式进行。得到所谓随机样本。随机偏差 概率论和统计学的关系 大家都会很熟悉名词“概率统计”。 概率论和统计学是两个相关的学科。 统计学利用概率论的工具来对数据的变化性进行建模,并且将不确定性加以定量化。 概率论统计学联系和区别举例 在概率论中我们假定总体和它的性质都是知道的。然后我们研究从中抽取一个特殊样本的概率。 举例来说,假如某地域目前流通的百元钞票中混进了1%的假钞,从中任意抽取100张,计算其中没有假钞的概率(36.6%)。这是概率论的问题。 而统计学则处理相反的问题。假如我们不知道假钞所占比例。我们要设计抽样方法,然后用样本中给出的数据来估计假钞的比例,以及确定这种估计的准确性是多少。 统计的三个主要任务 收集数据 概括和探索数据 基于数据得到结论和做出决断 2.1数据的类型 分类数据:为了表示简单和操作方便,有时用数字表示总体中个体的类别。 如果数据的大小没有直观意义,这样的数据称为分类数据。 例如,可以用1表示活期储蓄,2表示3个月定期储蓄,3表示6个月定期储蓄等。可以用1表示男性职员,0表示女性职员。产品的合格品可以用1代表,不合格品可以用0代表。 2.1数据的类型 顺序数据: 如果表示类别的数据的大小有一定意义,但它们的倍数或差没有意义。这样的数据称为顺序数据。 很满意用3表示,满意用2表示,不满意用1表示,很不满意用0表示。 2.1数据的类型 数值型数据:表示个体的某些特征,其大小,倍数和差都有意义。这样的数据称为数值型数据,定量数据或数量数据。 2.2 数据概括 国家统计局1998-2004发布的《中国统计年鉴》 1997-2003全国各地区城镇居民平均每人全年家庭总收入。 数字较多,很难直接得到一个整体的印象。 代表性的数字,我们称其为特征。 各地区城镇居民平均每人全年家庭总收入 数字特征 最大值(Max):样本中的最大数据值。 最小值(Min):样本中的最小数据值。 众数:出现次数最多的数。例如,在一个样本中人数最多的年龄就是众数。 中位数(Median):将样本从小到大排列,位于中间的值称为样本中位数。如果样本个数为偶数,则取中间两个数的算术平均值作为中位数。 分位数(Quantile):如果样本中比一个数w小的样本所占比例为q。则称这个数w为q分位数。 一般将25%(=1/4)和75%(=3/4)分位数称为四分位数,且分别称为下四分位数和上四分位数。 中位数是50%分位数。 平均值(Mean):将样本所有数进行算术平均得到的值,称为平均数。 标准差(Sd):方差开方,即s。标准差的尺度与原来的数据相同。 四分位长度:定义为上四分位数与下四分位数之差。也表示数据的分散程度。 表2.2各地区城镇居民平均每人全年家庭总收入数据特征 表2.3 根据四分位对各地区城镇居民平均每人全年家庭总收入分类 Box-Whisker图(盒线图)。 有很多种图表也可以很直观地概括数据。 盒线图能够很直观的给出数据的主要特征。 盒子中间的线代表中位数,顶端代表上四分位点,底端代表下四分位点,如果有加号“+”,则加号表示与其他数据相差很远的个体,我们称其为离群值或野值,一般是指从这些点从盒子顶端或底端的距离超过1.5倍的盒子长度,既四分位长度。 下面的几个图是根据前面给出的数据画出来的。图形所占长度越大,则表示数据越分散。中位数的位置也能反映数据分布是否有偏。 图2.8 1997年各地区城镇居民平均每人全年家庭总收入盒线图 图2.9 1998年各地区城

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档