学业测验的现代理论与技术.docxVIP

下载本文档

0
0
约3.23千字
约 28页
2022-12-15 发布于江苏
举报
版权申诉

学业测验的现代理论与技术.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

学业测验的现代理论与技术赵守盈贵州师范大学测量的理论与实践－－现实与前沿 ? 测量的存在之基 ? 差异的存在 ? 差异的稳定问题? 教育测量－－前提与问题 ? 教育实践的需要 ? 教育资源的相对不足 ? 当前中国教育测量的现实问题分数的合成－－中国当前教育考试的典型做法分数的合成－－中国当前教育考试的典型做法分数的合成－－中国当前教育考试的典型做法 ?对中国当前教育考试的攻击教育测量的经典理论回顾 ? 测验的题目质量分析 ? 难度题目的难易程度 ? 区分度题目有效区分被试能力水平的程度 ? 多项选择题的质量分析教育测量的经典理论回顾 ? 测验的质量分析 ? 信度用同一份测验测量同一批被试，测量结果的一致性程度。 ? 效度一份测验真正测量到所要测量的能力水平的程度。经典测量理论的不足 ? 信度估计精度不高。 ? 误差指标笼统单一、不精细。 ? 各种参数的估计对样本的依赖性太大。 ? 参数指标之间的配套性较差信度估计精度不高 ? 根据真分数理论的假设，测验原始分数X线性分解为测验真分数T和误差分数E两部分，并且进一步假设真分数是测验原始分数的期望，误差分数与真分数相互独立，从而导出测验信度为真分数方差与原始分数方差之比。如此定义的信度并无助于信度的估计，因为在定义中除原始分数方差可得之外，真分数方差与误差分数的方差都是无从求取的。为实际估计测验信度，经典理论又提出了平行测验等概念，从而推演出若干信度的公式。但严格的平行测验是不存在的，由此造成了实际估计的信度精度就比较差。测验信度是测量误差的重要指标，测验编制的一个重要原则就是要降低测验的误差，而作为测验误差大小的指标---信度本身却还不能准确估计，所以说，这种理论存在严重的缺陷。因此，改造经典理论的信度概念，提高信度估计的准确性，成了测验理论研究的一个重大课题。信度估计精度不高。。误差指标笼统单一、不精细 ? 经典理论导出测验测量标准误差为: SE=S g x (1-r xx ) ? 以此估计真分数置信区间。但我们应该注意到，这个SE是所有被试测量误差的标准差，或称为平均标准误差，因此此值可以用来描写所有被试的测量精度。从应用上讲，这样非常的方便，但实际上却是经典理论的一大不足。因为不仅是不同的测量有不同的测量误差，相同的测量对于不同的被试也会有不同的测量的误差。一个被试的水平与一份测验的难度相当，测量的结果会比较准确，否则误差就会增大。被试水平与测验难度相差越大，误差就会越大。因此，用一个笼统单一的或称为平均的误差指标来刻画所有被试的测量精度，是难以令人满意的。寻求针对每个被试的更为精细的测验误差指标，是测量理论研究上急需解决的一个重要问题。经典测验理论各种参数的估计对样本的依赖性太大 ? 经典测量理论中，用信度、效度、难度、区分度来描述测验与题目的特性。要编制出高质量的测验离不开对测验“四度”的估计。经典测验理论提出了用相应的样本统计量值作为总体参数估计值的方法。但是，在经典理论中，这些参数的估计对样本的依赖性是很大的。其中有很多指标都是通过相关计算的，而相关系数的估计受样本全距的影响很大。相同的题目，样本全距越大，相关系数值越大，样本全距越小，相关系数值越小。经典测量理论为避免样本偏倾而导致参数估计误差过大，特别强调抽样时要注意保证样本对总体的代表性。但这毕竟是“随机”抽样，存在偏差。这样，所估各种测量参数指标对测验编制的指导价值就非常有限。能否找到对被试样本依赖性较小甚至没有依赖的测验参数指标，在经典理论框架内难以办到。经典测量理论参数指标之间的配套性差 ? 测量工作者应用测题去测被试，理所当然要选择最适合被试水平的试题上。以经典理论中，题目水平的刻画量是题目难度，被试水平的刻画量是卷面得分。题目难度的参照系是被试群体，难度0.2就是试题有被试通过率为20%。被试卷面得分的参照系是试卷的全部试题。百分制试卷上被试得分80表示被试在此特定试卷上的得分率为80%，但却不能推断出试题恰好与有80%试卷得分被试匹配。即在经典理论中，依靠现有的参数指标，找不到某试题是否恰好匹配某被试的计算方法。这就导致编制测验，选择试题时带有一定的盲目性，究其原因，就是因为试题难度和被试水平这两个参数指标未能定义在同一个参照系上，未能应用同一种试题指标。虽然两个指标各自的意义均非常清晰，但测验实践却迫切需要它们能够相互配套。高度统一起来。经典测量理论参数指标之间的配套性差 ? 经典测量理论用于指导目标参照性测验的编制，比起用于常模参照测验显得比较苍白无力，除历史原因之外，也有理论框架的先天局限。现代社会追求的是高效率，传统的测量所用试卷千人一面，很难说这