- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
描述统计学ⅱ:数值方法
五数概括法 五数概括法(Five-number summary):是一种探索性数据分析的技术。用五个数据值:最小值、第1四分位数、中位数、第3四分位数和最大值来概括数据集。 * Graduate 6 5 1 4 12 7 11 9 2 3 8 10 Starting Salary 2710 2755 2850 2880 2880 2890 2920 2940 2950 3050 3130 3325 箱形图 画一个箱体,其边界恰好是第1和第3四分位数。这个方盒包含了中间的50%的数据。 在方盒上中位数的位置画一条垂线。因此中位数将数据分为相等的两个部分。 利用四分位点内距IQR =Q3-Q1,来设定界限。盒形图的界限定于低于Q1以下1.5个IQR和高于Q3以上1.5个IQR的位置。上、下限以外的数值作为异常值。 画一条须线从方盒的边线出发,直至在上、下限之内的最大值和最小值。 最后,任一异常值的位置以符号“ * ”标出。 * 箱形图(Box plot):一种用图形概括数据的方法。用一个以第 1和第3四分位数为边界的方盒来表明在中心位置的 50%的数据。以一条横线(称为须线)从方盒两侧延伸以表明大于第 3四分位数和小于第1四分位数的数据值的位置。所有异常值的位置也予以标明。 * 3 描述统计学Ⅱ:数值方法 位置的度量 变异程度的度量 相对位置的度量和异常值检测 探索性数据分析 两变量间关系的度量 加权平均数和使用分组数据 * 协方差 协方差(Covariance):用以衡量两变量间线性相关关系的数值量度。正值表示正相关,负值表示负相关。 总体协方差 样本协方差 * 例:一个音像设备商店数据的样本 * * * y = 51 x = 3 Ⅰ Ⅲ Ⅳ 相关系数 相关系数(Correlation coefficient):用以衡量两变量间线性相关关系的数值量度。其取值从–1到+1。接近+1的值表示强的正线性相关,接近-1的值表示强的负线性相关,接近零的值表示几乎无线性相关关系。 * 3 描述统计学Ⅱ:数值方法 位置的度量 变异程度的度量 相对位置的度量和异常值检测 探索性数据分析 两变量间关系的度量 加权平均数和使用分组数据 * 加权平均数 加权平均数(Weighted mean):将每一个数据值予以一个权重以反映其在数据集中的重要程度。由此获得的平均数即为加权平均数。 购买批次 每磅价格(美元) 购买数量(磅) 1 3.00 1200 2 3.40 500 3 2.80 2750 4 2.90 1000 5 3.25 800 * 分组数据 分组数据(Grouped data):将数据分为若干个组并配以频数分布,而不记录原始数据的个体值。 审计时间(天) 频数 10-14 4 15-19 8 20-24 5 25-29 2 30-34 1 * 分组数据样本平均数 分组数据总体平均数 分组数据样本方差 分组数据总体方差 * * * 3 描述统计学Ⅱ:数值方法 位置的度量 变异程度的度量 相对位置的度量和异常值检测 探索性数据分析 两变量间关系的度量 加权平均数和使用分组数据 * 平均数 平均数(Mean):衡量数据集中心位置的量度。用所有数据值相加的和除以项数计算。 如果数据来自某个样本,则其平均数以 表示;如果数据来自某个总体,则其平均数以希腊字母 μ 表示。 样本平均数 总体平均数 * 平均数 总体参数:用来概括总体数据的量度的数值。 样本统计量:用来概括样本数据的量度的数值。 * 中位数 中位数(Median):衡量数据集中心位置的量度。中位数的值将所有的数据分为两个相等部分,一部分的值都大于或等于它,而另一部分的值都小于或等于它。 奇数项:中位数是以递增顺序排列的所有数据项的正中央的那一项的数值。 偶数项:中位数就以递增顺序排列的所有数据项的正中央的两项的平均值。 * 中位数 衡量数据中心位置时,平均数的应用要更加普遍。但在某些情况下,平均数往往会受到极端大的或极端小的数值的影响。 例:在年收入及财产数据中,因为收入和财产中的少数极端值将会夸大平均数。在这种情况下,中位数成为更好的衡量中心位置的量度。 * 例:12名商学院毕业生的起始月薪数据样本 Graduate Starting Salary 1 2850 2 2950 3 3050 4 2880 5 2755 6 2710 7 2890 8 3130 9 2940 10 3325 11 2920 12 2880 平均数:$2940 中位数:$2905 10000 平均数:$3496 中位数:$2905 * 众数 众数(Mode):用以衡量数据的位置的量度,定义为发生频数最高的数据值。 有时发生频
您可能关注的文档
最近下载
- 一般现在时(第三人称单数形式_)及练习.doc VIP
- 节能与新能源汽车技术路线图2.0_完整下载版.pdf
- 医院医保办个人年度述职报告与医院医保办个人总结汇编.doc VIP
- 新22J01 工程做法参考图集.pptx
- 2022届中考语文一轮专题复习:现代文阅读理解专练 -- 部编人教版九年级总复习.pdf VIP
- 2024年四川省宜宾市江安中学数学中考一诊试题.docx VIP
- 第三人称单数练习题 .docx VIP
- Unit4 Healthy food 单元同步分层作业三年级英语下册人教PEP版2025.docx
- 2025年反洗钱题库(434道) .pdf VIP
- 2025届高考英语复习:读后续写真题讲解+课件.pptx VIP
文档评论(0)