测验效度概念的新发展.docVIP

下载本文档

7
0
约1.14万字
约 10页
2017-09-18 发布于安徽
举报
版权申诉

测验效度概念的新发展.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

测验效度概念的新发展谢小庆（北京语言大学）摘要：在1985年《教育与心理测验标准》（第5版）出版之前，效度研究的核心概念是“效标（criterion）”。效度研究被视为一种用“效标”对测验的效度进行证明（verify）的过程，效度研究被视为一种对测验分数做出有效（valid）解释的过程。在1985年以后，效度研究的核心概念是“证据（evidence）”。效度研究被视为一种通过积累证据对测验的效度进行支持（support）的过程，效度研究被视为一种对测验分数做出合理（reasonable）解释的过程。关于效度的这种理解，突出地体现在1999年出版的《教育与心理测验标准》（第6版）中。美国教育协会和美国国家教育测量学会共同组织编写的《教育测量》在业内被称为是“测量领域的《圣经》”。在2006年《教育测量》（第4版）出版以后，效度研究的核心概念变为“理由（warrant）”。效度研究被视为一种通过构造“理由系统”和“理由网络”对效度所进行的“论证（argument）”，效度研究被视为一种对测验分数做出可接受的（plausible）解释的过程。本文结合作者在考试实践中的一些体会，介绍了效度概念的新发展。关键词：测验考试效度考试是一把尺子，被用来测量应考者的能力。这把尺子本身可能存在质量问题。只有达到质量标准的考试才能被应用。效度是刻画考试质量的最重要指标，它反映了考试在多大程度上实现了考试目的。在美国教育研究协会（American Educational Research Association，AERA）、美国心理学会（American Psychological Association，APA）和美国国家教育测量学会（National Council on Measurement in Education，NCME）共同制定的《教育与心理测验标准（Standards for Educational and Psychological Testing）》 [1][2]和美国教育协会（American Council on Education）和美国国家教育测量学会共同组织编写的、被人们称为“教育测量领域的《圣经》”的《教育测量（Educational Measurement）》[3][4]中，首先讨论的都是考试的效度问题。效度概念的历史演变考试是一把尺子。这把尺子的准确性，需要靠另一把尺子来检验。这“另一把尺子”，就是“效标（criterion）”，或“标准”。在招生名额有限的情况下，当我们准备将一项测验（如手指速度测验或注意力测验）作为“打字员培训班”的招生考试时，我们可以对这项测验的有效性进行检验。我们可以计算经过一个月培训后的学员的打字速度与测验分数之间的相关。如果存在显著的相关，我们可以说这项测验是有效的。这时，经过一个月培训后的打字速度就是“效标”。早期的效度研究是围绕“效标”展开的。例如，作为美国高考的《学术评估测验（SAT）》的主要效标是大学第一年各科考试成绩的平均，英语TOEFL考试的效标是英语教师对学生英语水平的评价，汉语水平考试（HSK）的效标是汉语教师对学生汉语水平的评价。在教育部考试中心的资助下，笔者曾经进行过一次关于语文高考的效度研究，采用了4种效标：高中成绩，高中任课教师对学生语文水平的评价，高中同学之间的互相评价，大学第一学年的各科成绩平均。 [8]受国家公务员局委托，笔者曾经对若干年的中央机关公务员录用考试进行效度研究。研究所采用的最主要效标是考生的学历，划分为大专、本科、硕士、博士等几个等级。大学中由任课教师命题的、监管并不严格的课程考试成绩真的比顶尖专家命题的、严格监管的高考成绩更可信吗？真的可以被作为效标去检验高考成绩吗？如果以“学历”作为效标来检验公务员录用考试的成绩，高学历就一定是高能力吗？为什么不直接根据学历来录用公务员呢？ “效标”被用来对考试的质量进行检验。在许多情况下，这些效标很容易受到质疑。心理测量学家们发现，“效标”只能在很有限的领域内为测验提供有说服力的效度检验，更多的情况下则是捉襟见肘，难以自圆其说。于是，他们尝试着为“效标”配备了两个助手，一个的名字叫“内容（content）”，另一个的名字叫“构念（construct）”。在可疑的“效标”显然靠不住的时候，心理测量学家说，测验可以是特定知识内容总体的一个代表性样本。只要我能够证明我编制的测验是特定知识内容总体的具有代表性的样本，我就可以说我的测验是有效的，说它具有“内容效度（content validity）”。例如，高考语文考试可以是中学语文教学内容总体的一个代表性样本。 “内容效度”面临双重挑战。首先，我需要证明我编的高考语文试卷是中学语文教学内容总体的一个代表性样本。这并不容易。“中学