数理统计在教育测量信度理论中的一些应用.pdfVIP

下载本文档

19
0
约 41页
2017-09-15 发布于安徽
举报
版权申诉

数理统计在教育测量信度理论中的一些应用.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

优秀博硕毕业论文，完美PDF内部资料。支持编辑复制，值得参考！！！

数理统计在教育测量信度理论中的一些应用摘要按照经典测验理论真分数模型，可以具体地从三个角度来定义测验的信度。一是把信度定义为观察分数与真分数间联系的强度。二是将信度定义为大批平行测验在被试个体上所得误差分数（观察分数与真分数之差）的标准误。三是将信度定义为两平行测验上观察分数间的相关。前两个定义，都使用真分数本身，都是不可观察从而无法获得的值，据此建立的定义只有理论的价值。最后一个定义只应用到观察分数值，是测验过程中唯一可直接获得的资料，因此，就给问题的解决开辟了现实可行的道路。在有很多个平行测验时，信度被定义为一个跟另一个相关的平均数。本文的第一部分说明了这种方法的合理性：在假定学生成绩是具有等相关系数、异方差协差阵的正态分布时，证明了用该方法定义的信度实际上是该模型满足一定条件时相关系数的极大似然估计，并且该估计是相关系数的 UMVUE 。更进一步，我们还对相关系数进行Bayes 统计推断，求出后验信度，并进行讨论。对测验中常见的0——1 计分题型，已有了很多成熟的处理方法。对于多级评分，如何求其信度，有很多的讨论，不少讨论是很有价值的。本文的第二部分试对此问题进行Bayes 统计分析，给出了多级评分的Bayes 模型。在给定先验分布的条件下，可以根据一次测验的成绩估计出先验分布的各参数，从而模拟两次测验的联合分布。若该测验是常模测验，可以计算两次测验的相关系数，作为信度的估计值；若该测验是标准参照测验，取定切断分数，可以求分类一致性信度。虽然该方法的计算比较繁琐，但借助MATLAB 等软件，可以很方便地实现，本文通过一个三级记分例子说明了整个过程。测验的目的之一在于区分各类考生。因此在测验之后人们常常要确立一个切断分数，凡成绩在此分数线及其上的考生被认为已掌握该门课程，凡成绩在此分数线之下的考生被认为没掌握该门课程。但在实际情况中，有时需根据测验结果，将考生分成三类：优、中、差，也有可能需要将测验结果划分为更多的类。本文的第三部分运用数理统计的基本原理和方法，就多级分类时分类一致性信度K 指标的评鉴标准进行了初步探索，给出了K 指标的点估计，区间估计以及假设检验等的计算公式和方法。 2 数理统计在教育测量信度理论中的一些应用 Abstract According to the classical measurement theory, the reliability of a test can be defined in three different ways. The first defines the reliability as the strength between observed scores and true scores. The second is the standard of the errors for scores. And the third is the correlation ratios of two parallel tests. The first two definitions use the true scores which cannot be observed. Thus these two methods have only academic values. And the last definition only uses the scores that can be observed. They are the only information can be get directly.That is to say, this definition provides a flexible practicable framework for reliability estimation. The first part of this paper testifies the basis of the method in part one. Assuming the scores distribute as a nor