TEM4写作新分项式评分标准多层面Rasch模型分析.docVIP

下载本文档

61
0
约1.3万字
约 23页
2018-08-11 发布于福建
举报
版权申诉

TEM4写作新分项式评分标准多层面Rasch模型分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

TEM4写作新分项式评分标准多层面Rasch模型分析

TEM4写作新分项式评分标准多层面Rasch模型分析　　摘要: 为了检验TEM-4写作新的分项式评分标准的评分质量,18位评分员使用这种新的分项式评分标准独立评阅了35篇TEM-4真实作文文本。我们运用项目反映理论的多层面Rasch模型对评分结果进行分析。多层面Rasch模型总层面和分层面分析的结果表明,新的分项式评分标准能够有效地区分不同写作能力水平的受试;评分员的松严度虽然存在显著差异,但评分员之间的一致性和评分员内部的稳定性均在可以接受的范围之内;评分标准各维度的难度存在显著差异,分值的使用总体上令人满意;评分员与受试之间交互作用的偏差和评分员与评分标准维度之间交互作用存在一些显著偏差。整体而言,新标准评分结果与模型拟合比较理想,评分员使用该标准评分的结果是可靠的。　　关键词: TEM-4写作测试;分项式评分标准;效度验证;多层面Rasch模型　　中图分类号:H319.3文献标识码:A文章编号:1001-5795(2010)01-0019-0007 　　　　1 研究背景　　　　高等院校英语专业学生四级测试(Test for English Majors, Band-4, TEM-4)属于标准参照性、教学检查类测试,应当为教学提供较充分的反馈信息。现行TEM-4的评分标准是基于当时的教学大纲参考其它L2写作测试评分标准由专家设计的。从1994年实施以来,尚未进行系统的效度研究。在评分实践中,很多评分员发现这一评分标准不够具体,有些维度存有歧义。基于直觉式(intuition-based,即由相关专家根据直觉制定评分标准)的评分标准设计方法受到人们的严厉批评。近年来许多学者主张采用基于实验数据式(data-based)设计方法,即通过对受试的语言行为样本进行语篇分析或话语分析得出受试的语言行为特征,也可以让评分员对受试的语言行为进行评价,归纳出他们作为评判依据的语言行为特征(如Fulcher Davidson,2007;Knoch,2009)。大规模、高风险写作测试的评分标准大都基于实证研究成果设计而成,如,TOEFL(Cumming et al., 2001),IELTS(Shaw Falvey,2008)。一些研究证明,对于EFL/ESL写作测试而言,分项式评分标准更有利(如Bacha,2001;Hamp-Lyons,1991; Knoch,2009; Weigle,2002)。　　TEM-4写作部分新的分项式评分标准(李清华,2010)包括三个维度:思想表达、语言使用和写作规范。在新的评分标准在实施前,应从多方面收集数据验证其效度。本文报告了对该评分标准效度(注:在ShawWeir(2007)针对二语(L2)写作测试提出的“社会-认知效度验证框架”中包括情景效度(context validity)、认知效度(cognitive validity)、评分效度(scoring validity)、后果效度(consequential validity)和效标关联效度(criterion-related validity)。评分效度指,根据评分标准评出的分数在多大程度上是稳定的?特别是,在评分员之间,评分员个人内部,内容抽样之间等方面分数的一致性。本文亦取此义,而不使用传统的“信度”概念。)验证的部分研究成果。　　　　2 研究问题　　　　为了验证新评分标准的效度,本研究拟分析新标准在评分员之间的一致性、评分员内部的一致性、评分员与评分标准之间的交互作用、评分员与受试之间的交互作用、评分量表的区分性等方面的质量。具体说来,要回答以下问题:新标准在区分受试写作能力、评分员内部的一致性、评分员之间的一致性、评分员与评分标准之间的交互作用、评分员与受试之间的交互作用、评分量表的区分性等方面的质量如何? 　　　　3 研究设计　　　　3.1 评分员　　从全国范围邀请到评分员20人(有TEM-4评分经验的教师10人,无经验的10人)。他们自愿参加本次实验,在实验结束后,参加者得到一定报酬。但是,在实验过程中,有1人因故退出,1人未能参加第二次评分。因此,实际有效参加者18人,其中男性11人,女性7人;博士5人,博士生8人,最低学历为硕士;具有高级职称者6人。平均高校教龄8年,曾经从事写作教学近3年,不满3年的评分员11人(占61%)。评分员3号、4号及7、8、9、11、12、13、14没有参加过TEM4评分(占50%)(评分员信息见表1)。　　3.2 实验材料　　实验材料来自于TEM-4(2007)的真实答卷。在外语专业教学指导委员会英语测试组的帮助下,研究者随机抽出50份作文。研究者与另外两位语言测试方向的博士分别审读后,经过讨论从中选出具有代表性的作文35