语言测试的效度研究-黑龙江大学外语教学研究部.doc

下载文档 降价啦

33
0
约2.96万字
约 26页
2017-09-02 发布于天津
举报
版权申诉
保障服务

语言测试的效度研究-黑龙江大学外语教学研究部.doc

1、本文档共26页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

语言测试的效度研究-黑龙江大学外语教学研究部

第六章语言测试的效度研究本章将研究所有语言测试中最重要的问题：效度问题。效度是测试评估中最重要的指标。一项测试如果从设计目的角度讲不是有效的，那么测试分数的推断和解释自然不会准确（Alderson et al. 1995:170）。Messick(1992:89)指出，众多测试设计者承认其有义务提供证明测量结果富有价值的效度证据，但遗憾的是很少有人真正这样去做。Hughes，Porter以及Weir认为提供令人满意的效度证据是任何严肃测试必不可少的条件。第一节效度的概念效度是教育和心理测量学中的一个概念，由来已久。Kelly（1927:14）指出“效度问题就是一项测试是否真正测量了它声称所要测量的东西”。Lado（1961:321）提出了这样的问题：“一项测试测量了它应该测量的东西了么？如果是，那它就是有效的。” 上述是对效度进行的概括性或普遍定义。下面我们从不同维度解读效度概念。 Henning（1987：89）对效度的理解偏重测试的设计目的，该定义为：一般来说，效度是指一项测试或测试一部分测量它声称测量内容的合适性（appropriateness）。测试有效是指它测量了它应该测量的东西。当效度用来描述一项测试时，它应该与“for”连用。任何一项测试只有针对特定的目的才有效。该定义突出了测试研发和使用的目的性。测试使用最普遍的问题之一就是测试误用，即测试不是本着最初的设计目的而得以运用，当然这并不是说一项测试不能有效于多个目的，无论它出于何种目的被运用，其有效性证据必须要建立并加以呈现。我们不能简单地说“该测试有效”，而应回答下面的问题“你是怎么知道该测试有效的？”以及“该测试有效性体现在哪里？”Henning的定义中还考虑到了效度的程度问题：测试相对其设计目的或多或少是有效的，即效度不是一个“要么有要么无”的概念，而是一个相对概念（Alderson et al. 1995:170）。 Weir认为效度存在于测试分数的解释中，而非测试本身。效度被认为是测试分数表征受试语言知识或技能水平的准确程度。美国教育研究协会、美国心理学协会和国家教育测量委员会联合颁发的《教育和心理测试标准》（Standards for Educational and Psychological Testing）指出，效度概念是指基于测试分数进行的推断的合适性（appropriateness）、有意义性（meaningfulness）以及有用性（usefulness）。对效度的定义如下：效度指的是证据及理论对包含在所提议的测试使用之中的测试分数解释的支持程度（邹申 2005：185）。 Messick的类似定义为：由测验分数或其他评价方式做出某种推断，效度就是对这种推断的恰当性和充分性能在多大程度上得到经验证据及理论基础的支持所做的综合评价。概括地说，效度是对分数解释及使用的证据和潜在影响的归纳总结（转引自张凯 2006：167）。 Messick定义中的不同经验证据和理论基础就构成了效度的多层面（multifaceted）属性，即需要不同类别的证据证明分数解释和推论是有效的，证据之间的关系不是选择而是互为补充。不同类别的证据一度被认为是效度的不同种类，而事实上它们是有效解释测试分数的不同来源。效度应该被科学地定义为一个“一元化”或“整体”概念（unitary concept），即把不同类型的效度看成是包含在此一元化效度概念中的不同方面（Bachman 1990）。第二节效度证据在解释效度证据之前，需要了解“效验”（validation）这一概念，它是指对一项测试进行效度研究（邹申 2005：192），证明该测试有效的过程，亦即收集证据支持基于测试分数所做的推断的过程。对某测试分数有效程度的判断需要收集在分数与分数解释及应用之间建立关联的信息得以证明，Messick将其视为测试解释和应用的证据基础（evidential basis）。翻阅多本测试相关书籍发现不少学者将以不同方式构建效度的证据视为不同的效度类型，认为效度存在着不同种类，例如表面效度（face validity）、内容效度(content validity)、效标关联效度(criterion-related validity)、构想效度(construct validity)、语境效度(context validity)以及后效效度(consequential validity)等等。还有学者使用了更加概括的术语对效度进行归类，例如Alderson et al. 指出的内部效度（internal validity）(表面效度、内容效度及应答效度)和外部效度（external validity）（效标关联效度）以及Weir归类的测前效度（priori va