- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于相似度模型的自动阅卷算法.doc
基于相似度模型的自动阅卷算法
摘 要: 自动阅卷算法一直以来都是各个在线考试系统的重点和难点。这里设计的自动阅卷算法通过解析学生答案中关键字,并计算这些关键字的排布与答案关键字的排布的相似度,给出一个相对合理的分值。经过反复测试调优,该算法提供的分值已经具有相当好的可参考性。
关键词: 自动阅卷; 关键字; 相似度; 可参考性
中图分类号:TP311.52 文献标志码:A 文章编号:1006-8228(2015)06-45-03
Abstract: Automatic scoring algorithm is always the emphases and difficulties of various online examination systems. The automatic scoring algorithm we designed gives a reasonable score through the keywords analysis of student answer, the similarity calculation between the arrangement of these keywords and the arrangement of answer keywords. After repeated testing and optimizing, the scores provided by the algorithm have been a very good reference.
Key words: automatic marking; key words analysis; similarity; reference
0 引言
实现自动阅卷需要解决以下几个问题。
首先,计算机应该能够像人一样读懂参考答案和学生答案,这需要计算机具有一定的常识和领域知识。而计算机并没有主动掌握这些常识和领域知识的能力,这需要人类把这些知识录入到计算机中去。而知识的录入又涉及到知识的表示问题。
其次,人在阅读语句的时候,由于其自身所拥有的背景知识,能够知道语句中哪些是词哪些不是词,而计算机并没有自动识别句子中的词的功能,这就需要人工构建相应的词库,将有可能用到的单词录入到计算机中。这样,计算机在处理自然语言语句的时候,可以将语句中若干个字符组成的字符串在词典中进行查询,如果词典中有这个字符串,则表明它在自然语言中指的是一个词,计算机就将其认为是一个词。所以,计算机还应该具有识别句子中单词的能力,也就是分词的能力。
接着,人在阅卷主观题的时候,给分的过程包括识别出答案语句中的各个成分的过程,也就是在一个语句中哪些成分是必须的,哪些成分是可有可无的。对于句子中必须的成分,把它提取出来作为该句的关键词汇,对于那些可有可无的成分,则可以将其忽略不计。计算机若要具有这样的能力,就需要具有对句子拆分分析的能力,能够自动分析出句子中的重要成分。
最后,主观题最终分值的确定依托于学生答案跟参考答案之间的相似程度,学生答案越接近参考答案,得分越高;反之,则越低。而且人在阅卷的时候可以容许学生答案具有一定的随意性,所以学生答案不一定非要跟参考答案完全一致,只要意义相近或相同,表达上没有错误,也可以得到高分。这就需要计算机能够处理同义近义现象,当学生答案中的文字跟参考答案不一致时,计算机可以查看学生答案中的文字跟参考答案是否相似或相近,然后给出相应的分数。
1 自动阅卷算法的思想
本文的主观题自动阅卷的思想就是模拟上述教师阅卷主观题的过程。首先我们对考生答案进行分句分词处理,然后对学生答案进行语句分析,识别出答案中重要的成分,之后,将其进行关键词提取,将其中的实词、动词抽取出来与标准答案进行相似度计算,按照各标准答案关键字在整个试题得分中所占的比例,评定其小分,最后累加答案中各关键字的得分,并适当考虑考生答题时的文字组织情况,得到本试题的最终成绩。
2 自动阅卷算法的实现流程
主观题自动阅卷系统的具体流程为:先对学生答案进行分句处理,将由段落组成的答案分成各个子句;接着对答案的各个子句进行分词处理,将各个子句变成词的序列并对分词标记词性;再对各个子句进行语句分析,分析出语义树。然后根据一定的抽取规则抽取出各个语义树中的关键词汇;再按照模糊数学中贴近度思想把学生答案和参考答案进行严格贴近度计算,并辅助以一定的评分规则计算出整个子句的相似程度,最后根据各项分值得出学生的得分。
2.1 分句处理
分句处理是把答案以某些特定标点符号为分隔标志分成若干子句。在这里,根据关于语句、句群和篇章的定义,除了把通常所说的句号、感叹号、问号
您可能关注的文档
最近下载
- 《项目现场管理组织机构图及人员职责.doc VIP
- 2025年9月13日河北地级市遴选笔试真题及解析.docx VIP
- 1315002-0000-e0_生物化学需氧量(BOD5)测定仪通用技术规范.doc VIP
- 视频号0粉开播的3大技巧.docx VIP
- 2025年陕西电信校园招聘笔试备考试题及答案解析.docx VIP
- 部编版九年级语文上册艾青诗选PPT课件.pptx VIP
- 1405031-32-0000-00_±400~±800kV直流盘形悬式瓷(玻璃)复合绝缘子通用技术规范.doc VIP
- 2802003-0000-00-新一代高可靠变电站辅助设备采购技术规范(通用部分).docx VIP
- 2025年福建电信校园招聘笔试备考试题及答案解析.docx VIP
- 9014001-0000-00-劳务分包服务采购范本(第1部分:通用技术规范).docx VIP
文档评论(0)