- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大学英语作文自动评分系统中文本聚类应用
大学英语作文自动评分系统中文本聚类应用 摘 要 自动作文评分研究在我国尚处于起步阶段。对于大学英语作文教学来说,评分需要针对不特定题目,具有通用性。在作文内容评价方面,可以通过文本聚类按照作文词汇等的相似度进行分类从而聚集到一起。本文通过研究大学英语作文评分难题,结合文本聚类理论,完善其应用,将聚集不到一起差异性较大的可能跑题作文交由老师评判,可大大减少教师工作力量,提高作文评判的准确性和效率,对大学英语作文教学具有良好的促进作用
【关键词】自动作文评分 大学英语 文本聚类
1 引言
近几十年来,作文自动评分在国外得到了长足发展,并广泛应用于实践中。自动作文评分( Automated Essay Scoring,AES)近年来已渐成为自然语言处理研究中的热点和重点研究对象。自动评分即非人工的,通过计算机对作文进行评分。不同于其他客观题目,作文评分必须包含内容评价。AES 系统当然也包含这方面的评价,只是在针对不同人群、不同种类作文其内容评价侧重点不同,有的甚至只依靠内容评价。 为了更好地对大学英语作文评价,一般来说通过内容和语言来进行分贝评判。而其中评判内容则可以采取聚类的数据分析 (exploratory data analy-sis),用此系?y进行相似度聚类评价,可对跑题作文鉴别很有帮助
2 自动评分系统的意义
在我国大学英语写作训练中,由于一个老师带的学生数量多,批改作文负担重,导致学生训练不足,作文水平得不到提升。这时,运用自动作文评分修改作文不失为一个好方法。与人工修改相比,自动作文评分系统修改作文具有以下优点:
(1)电脑不会疲倦,更加持续高效。会比人工更仔细、客观地评好每一篇作文,且不带思想感情,更公正客观,有利于学生进步
(2)可大大降低老师的批改工作量,使老师能有更多时间进行备课,讲解。且自动评分系统在评分时能方便统计出学生的薄弱地点,让老师可更有针对性地教学
(3)学生可以写更多的作文来劲性评判,从而更进一步提高其作文水平
尤其是在大学英语教学改革之后,英语课程实行分级、 分课型教学改革,每位读写课教师面对数百名学生,如何使学生获得更多的写作机会,并得到有指导性的反馈,已成为写作教学的燃眉之急
3 聚类综述
目前,聚类技术已然成为信息检索、文本挖掘的有力工具。其实质就是建立目标,将一组对象按相似度划分成不同组别的过程,这个过程可以设置目标为相似元素在同一组,也可以是相异元素不同组,从而达到不同目的。这是一种无指导的学习方法。比如给定一组样本数据 Y={Y1, Y2,Y3…, Yn},根据其相似度将这组数据氛围s组, {D1, D2,…, Ds}的过程就是聚类。这种聚类产生的组就叫 簇(cluster),聚类使得每个簇成员具有相似性,而不同簇又具有差异性,聚类方法越好使簇内相似度越高,簇间差异性越大。对文本信息的聚类就是文本聚类(Document Clustering),最初只使用它来进行信息检索,提高准确率。进行时要先把文本转化为计算机理解的形式,也就是向量空间模型,在对文本进行预处理,比如提取无用信息,如一些低频出现的词汇及一些停用词,辅助用词,检索出出现频次高可以代表此文档的词汇。有时也需要对姓名、电话、地址等一些信息进行识别。这样就可以构成文本向量。有了文档向量接下来就可以计算相似度了。由于语义内容很难计算,一般一出现频次高低进行计算这是目前较为成熟的一种方法。计算公式是以向量间欧式距离或夹角余弦来计算,距离近,夹角俞小则相似度越大
4 自动评分系统聚类研究
现行的 AES 系统对英语作文评分已经做到兼顾内容和语言质量,但这仅对外国学生而言,对于我国高校英语作文评分还存在不足
(1)成熟的系统大多用于商业,价格昂贵;
(2)这套系统多针对外国大学生,对我国学生来说,适用性不强;
(3) AES 评分系统都是先收集已经评过分数的作文题目储存分析,作为训练集,再以这些已经评过分的作文建立模型再进行大批量的评分,评分时可与之前建立的评分训练集进行语言和内容的比较,得出最后得分
适用于人数很多的大型考试或测验,建立人工评分的训练集都要达到200多份,总批阅试卷量达到几万份。而大学英语教育一个老师针对学生最多有300名学生,远远达不到上述的几万份,很难应用此种评分系统。所以,现在退出了一种小众的面相大学英语作文训练评分模式。它的特点在于:对作文的内容和语言质量分别评价。在语言方面,不用多次训练累计而成的语言评价模型进行评价,而不用特别针对某一题目;内容方面选择不经训练就可对内容进行分析文本自动聚类。聚类通过对文章词汇短语的鉴别与分析,把词语、内容、语义相近的文章自动聚集到一种类别中,从而进行判别。尤其对于同意题目的文章,按
您可能关注的文档
- 多视角下广场舞存在问题探析.doc
- 多轴激光切割在胸杯胶壳制作技术革新.doc
- 多频道电视播出技术及其常见安全故障.doc
- 多面齐下,全面构建新型“法治工商”.doc
- 夜半想起千条路,早起还要磨豆腐.doc
- 大一新生篮球课运动损伤现状及对策.doc
- 大一学生心理健康状况调查探究.doc
- 大专院校思想政治教育新途径探究.doc
- 大中五年张议潭入奏相关问题辨析.doc
- 大中农场连粳12水稻特征特性及高产栽培技术.doc
- 人工智能与医疗机器人协作应用的创新趋势研究报告.docx
- 2025至2030中国RNA原位杂交行业项目调研及市场前景预测评估报告.docx
- 数字化转型背景下职业技能认证行业可持续发展报告.docx
- 2025年汽车轻量化材料在汽车轻量化车身涂装中的应用研究报告.docx
- 2025年社区老年日间照料服务智慧化运营模式下的客户满意度分析.docx
- 2025年二手电商平台信用体系建设与诚信体系建设协同研究报告.docx
- 农业温室环境监测系统智能化升级,2025年对温室大棚作物生长条件的改善.docx
- 社区老年助餐服务智能化改造对提升养老质量的影响研究.docx
- 虚拟现实教育产品在物理实验课中的应用效果与教学策略分析.docx
- 2025年跨境电商物流行业政策环境变化对市场的影响报告.docx
文档评论(0)