人工智能辅助能力测量：写作自动化评分研究的核心问题.docxVIP

下载本文档

7
0
约6.82千字
约 7页
2021-07-27 发布于广东
举报
版权申诉

人工智能辅助能力测量：写作自动化评分研究的核心问题.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

人工智能辅助能力测量：写作自动化评分研究的核心问题摘要：写作自动化评分是目前智慧教育方兴未艾的研究领域，为缓解人工作文评分中存在的经济与时间成本等巨大压力提供了更加量化、及时和稳健的方案。然而，当前写作自动化评分模型大多是以特征值作为预测变量，拟合人工评分的分数预测模型。为了使写作自动化评分与提高学生写作能力的最终目标相匹配，写作自动化评分体系的建构需从能力测量视角出发，厘清测量范畴，突破写作自动化评分向能力测量转向的技术瓶颈。其中，需要解决的核心科学问题包括：（1）如何以写作评价标准为依据，建立具备解释性的特征体系，解决自动化评分与评价标准脱钩的问题；（2）如何突破拟合人工评分的局限，从分数预测模型拓展到能力测量模型，探索写作各能力维度的评估模型；（3）如何在实际应用中，在保证评分准确性的基础上，系统化论证写作自动化评分的信度与效度，强调跨子群体的公平性。为探索写作自动化评分的有效建构与使用的合理路径，今后的研究可以从自动化评分与人工评分的结合应用、写作自动化评分的稳定性和泛化性的检验、写作能力发展的持续性以及测验成绩的可比性等方面推进。一、引言尽管人工智能与信息技术在写作评分中的积极作用得到了广泛认可，但在实践中，尤其是在高利害考试中迫于自动化评分解释性与有效性备受质疑，关于自动化评分体系测量的实质与合理性愈加成为学界关注的话题（写作自动化评分发展与应用的瓶颈催生研究理念与研究框架的创新。随着心理测量学、自然语言处理（Natural Language Processing,NLP）和人工智能技术等跨学科研究合作的不断深化，写作自动化评分从评价表层文本质量拓展到测量写作能力迎来了新的发展契机。写作自动化评分应当以帮助学生提高写作能力为最终目标，将人工智能新技术融入对学生写作能力测量的完整教育评价框架中。自动化评分应明确写作能力测量的范畴，既要实现对文本质量的分数预测，也要通过能力诊断推动写作进阶；评分特征既要对分数预测有贡献，也要厘清其所涵盖的写作能力维度；评分结果既要保持与人工评分的一致性，也要避免人工评分中的偏误，保证评分的公平性。本文基于写作能力评价视角，从理论和实践层面提出写作自动化评分研究的新框架，以促进写作自动化评分范式的改进，推动写作自动化评分向深层写作能力诊断转变，保证在大规模与多元化情境下科学合理地开展写作自动化评分。二、写作能力测量视角下AES的研究框架1. AES测量的是什么写作能力是学生在长期学习过程中形成的一种相对固化的潜在能力，涉及不同层面的复杂认知过程和认知成分（基于情境的大数据时代可以利用的信息越来越多元，将文本质量评价结果与其他来源的证据（例如，眼动、log日志、光标与击键记录等过程性数据）相结合已是大势所趋（2. AES建构的依据、原则与过程传统的AES以文本质量为主要证据来源，教育和学科专家提出的“作文评分规则”是目前AES建构的主要依据。评分规则反映了作文质量要评价的方面，描述了从哪些方面分几个等级对作文进行评分以及每个等级作文质量的详细说明。目前应用最广泛的是美国教育学家提出的“六要素评分模型”（Six-Trait Scoring Model)(以往的AES研究范式是以追求与人工评分的最大一致性为原则来寻找文本特征的最佳组合方案，如图2。基于统计拟合的方法训练模型，意味着在同一个测验下，AES对每个题目的评分标准可能并不相同。这一方面造成AES的特征方案并不稳定，评分内部一致性受到质疑；另一方面，随着分类模型的复杂度增加，模型的概化性与解释性变弱。更重要的是，对特征效度的忽视偏离了写作能力测量的本质，难以进一步刻画学生写作能力的发展状况。上述问题的背后是写作自动化评价的研究视角与研究范式的局限。当研究视角转移到能力评价而不是分数预测时，写作自动化评分不再是一个封闭的评分系统，而需要通过科学的能力测量设计实现自动化评分的迭代与升级。基于写作能力测量的自动化评分体系建构的基本思路是要厘清写作能力的范畴，依据写作能力评价标准策划特征体系的建构途径，进而建立可持续测量写作能力的模型。在写作能力测量视角下，写作自动化评分构建的依据应当从“作文评分规则”转化为“写作能力评价标准”。写作能力标准应将写作能力定义为能力测量框架下可以评估的结构。科学的AES设计原则应以写作能力评价标准为起点，在保证自动化评分与人工评分一致性的基础上，厘清AES测量了写作的哪些方面，并且对自动化评分的信度与效度进行全面检验，见图3。基于该原则，AES的研究框架与研究范式的突破应包括以下三个核心问题：第一，如何建立具备解释性的特征体系，解决自动化评分与评价标准脱钩的问题；第二，如何突破拟合人工评分的局限，从分数预测模型拓展到能力测量模型；第三，如何超越检验自动化评分的