考试等值改进分析.docVIP

下载本文档

19
0
约4.43千字
约 9页
2018-09-18 发布于福建
举报
版权申诉

考试等值改进分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

考试等值改进分析

考试等值改进分析　　[摘要] 对于使用多份试卷进行的水平资格类考试，等值至关重要。介绍汉语水平考试的等值现状，分析面临的问题，提出优选参照标准、扩大等值样本以及样本加工处理等等进行等值改进的构想,具有重要的现实意义。　　[关键词] 汉语水平考试；等值；精度　　[中图分类号] G449.7[文献标识码] A[文章编号] 1008-004X（2010）10-057-03 　　　　考试是现代社会中甄别一个人是否具有某种知识和能力最为常用的方法，考试的分数往往是人们进行决策的重要依据。考试等值通过统计的方法消除试卷之间的差异，将不同试卷的分数转换到标准试卷的对应分数，经过等值转换后的分数可以提供一致的信息，相同的考试分数代表相同的水平，这样，同一个考试所使用的不同试卷之间就具有了可比性，等值后的分数可以互换使用。　　中国汉语水平考试(HSK)是为测试母语非汉语者的汉语水平而设立的国家级标准化考试，它包括三个级别：基础汉语水平考试，初、中等汉语水平考试和高等汉语水平考试。每个级别的HSK考试，每年举办多次。为了考试的安全，每次考试都使用与上一次不同的试卷。对于每一次考试，分数等值到标准试卷，以确保相同的报告分数代表相同的汉语能力，获得相同等级证书的考生都达到了相同的汉语水平。　　随着汉语水平考试的不断发展，考试等值也面临着一些新的问题。　　　　一、汉语水平考试的等值现状　　　　在汉语言文化世界推广的大环境中，汉语水平考试也有了相应的发展。汉语水平考试中心的考试种类，在传统的HSK基础、HSK初中等和HSK高等三种考试的基础上，增加了HSK入门级。另外，新开发了针对实用汉语交际能力的C.TEST系列考试，其中包括C.TEST(A-D级)、C.TEST(E-F级)、C.TEST口语面试三种。对于传统的HSK考试，汉语水平考试中心进行改进，新开发了HSK改进版系列。HSK改进版系列包括HSK初级、HSK中级和HSK高级三类考试，每类又细分为客观题考试、作文、口试三个独立的考试。　　这些考试中，独立的主观性考试包括C.TEST口语面试和HSK改进版各个级别的作文、口试。因为主观性考试的固有特点，这些考试不做等值。　　对于其他考试，每年的考试次数、每次考生样本的大小、考试后试卷是否公开以及是否进行等值，见表1。　　从表1中可见，客观性考试中，C.TEST系列因为考试后公布试卷，尚未寻找到合适的等值方案，目前不做等值。　　除此之外，其他考试都做等值。基本的等值设计有两种：共同组设计（single group）和共同题设计（common-item nonequivalent group）。基本的等值方法有三种：对于共同组设计，使用经典测量理论的线性等值（CTT linear equating）；对于共同题设计，使用线性等值塔克方法（Tucker method）和项目反应理论真分数法（IRT true score equating）。IRT的题目参数估计，使用单参数同时估计法。　　为了提高等值精度，等值实践中，汉语水平考试中心具体采取了下列做法：其一，进行考生抽样，获取高质量的等值样本；其二，样本中酌情去除统计表现异常的考生。　　为了检验等值结果的质量，等值后的数据会参照下列两类数据：一是总体合格获证比例；二是重复参加考试考生的成绩变化。　　　　二、汉语水平考试等值中遇到的难题　　　　1.等值实验结果的理论解释。1998年，汉语水平考试中心做过系统的等值精度研究，主要研究结果如下(谢小庆, 1998)：（1）基于经典测量理论（CTT）的等值方法精度明显高于基于项目反应理论（IRT）的等值方法。（2）CTT方法中，线性等值方法精度高于百分位等值（equipercentile equating）方法，其中塔克方法精度最高。（3）IRT方法中，基于单参数的等值精度高于基于双参数的等值，其中单参数同时估计的真分数法精度最高。　　然而，上述研究结果从理论上来讲有一定解释难度。原因如下：（1）与CTT理论相比，IRT理论出现的更晚，并有其独到的优势，目前被广泛应用国内外各种大型考试中。做出IRT等值明显劣于CTT等值的结论，根据似乎尚显不足。（2）CTT方法中，理论上，线性等值方法可被视为百分位等值方法的线性近似，线性等值精度高于百分位等值，也难得到解释。（3）IRT方法中，理论上，单参数方法可被视为双参数方法的近似，所以，单参数法的精度高于双参数法，也不易得到解释。　　通过分析，对这些问题初步有如下想法：（1）受样本规模影响，等值计算中的统计误差对于等值结果有一定干扰。考试等值使用的样本，受到每次考试考生规模的限制。当样本较小时，计算复杂程度较小的方法，计算误差也比较