- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
§3.2.3 数据的标准得分 假定两个水平类似的班级(一班和二班)上同一门课, 但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样(数据:grade.txt)。 §3.2.3 数据的标准得分 一班分数的均值和标准差分别为78.53和9.43,而二班的均值和标准差分别为70.19和7.00。 那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢?怎么比较才能合理呢? §3.2.3 数据的标准得分 虽然这种均值和标准差不同的数据不能够直接比较,但是可以把它们进行标准化,再比较标准化后的数据。 一个标准化的方法是把某样本原始观测值(亦称得分,score)和该样本均值之差除以该样本的标准差;得到的度量称为标准得分(standard score,又称为z-score)。 §3.2.3 数据的标准得分 即,某观测值xi的标准得分定义为 §3.2.3 数据的标准得分 在我们的例子中,张颖的标准得分为(90-78.53)/9.43=1.22,而刘疏的标准得分为(82-70.19)/7=1.69。 显然如果两个班级平均水平差不多,刘疏的成绩应该优于张颖的成绩;这是在标准化之前的数据中不易看到的。 可以看出,原始数据是在各自的均值附近,而散布也不一样。但它们的标准得分则在0周围散布,而且散布也差不多。实际上,任何样本经过这样的标准化后,就都变换成均值为0、方差为1的样本。标准化后不同样本观测值的比较只有相对意义,没有绝对意义。 第三章数据的描述 在对数据进行深入加工之前,总应该对数据有所印象。 可以借助于图形和简单的运算,来了解数据的一些特征。 由于数据是从总体中产生的,其特征也反映了总体的特征。对数据的描述也是对其总体的一个近似的描述。 §3.1 如何用图来表示数据? §3.1.1 定量变量的图表示:1.直方图 对于一个定量变量,比如某个地区(地区1)测量了163个高三男生的身高(S3height1.txt)。 用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形状”的一个办法是画直方图(histogram)。 图3.1就是利用这个数据由SPSS软件所画的直方图。 该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而纵坐标为各种身高区间的身高的频数。 直方图 §3.1.1 定量变量的图表示:2.盒型图 简单一些的是盒形图(boxplot,又称箱图、箱线图、盒子图)。 图3.2的左边一个是根据地区1高三男生的身高数据所绘的盒形图;其右边的图代表另一个地区(地区2)的高三学生的身高(height.txt,height.sav,第三章例.xls)。 盒型图 盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线(边)为上下四分位数(点);按照SPSS的默认选项,如果所有样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出 §3.1.1 定量变量的图表示:3.茎叶图 在直方图和盒形图中,很难恢复数据的原貌。而另一种图:茎叶图(stem-and-leaf plots)可以恢复数据 以地区1高三男生身高为例(图3.3),茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。 茎叶图 其中茎叶图中茎的单位为10cm,而叶子单位为1cm。比如,由于第一行茎为150cm,因此叶子中的九个数字001223344代表九个数目150、150、151、152、152、153、153、154、154cm等。每行左边有一个频数(比如第一行有9个数目,第二行有17个等等);可以看出最长的一行为从165cm到169cm的一段(有35个数)。 §3.1.1 定量变量的图表示:4.散点图 数据会有两个变量,如美国男士和女士初婚年限数据(marriage.txt)。 该数据描述了自1900年到1998年男女第一次婚姻延续的时间。 这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个中间的值(中位数)作为代表。 散点图 §3.1.2 定性变量的图表示:饼图 定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类的比例。 下面用SPSS绘的图3.5(饼图,pie chart)表示了说世界各种主要语言人数的比例(language.txt). 饼图 §3.1.2 定性变量的图表示:条形图 而用同样数据画的图3.6称为条形图(bar chart)。 从每一条可以看出讲各种语言的实际人数,而且分别给出了每个语种中母语和日常使用的人数(在图中并排放
文档评论(0)