- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于自然语言处理的主观题智能阅卷技术
摘要:本文主要探讨使用自然语言处理技术来实现主观题智能阅卷的方法,使用到的关键技
术包括分词、句法分析、词语相似度计算以及句子相似度计算。文章对如何使用这些关键技
术来实现主观题智能阅卷系统进行了详细的阐述。
关键词:智能阅卷;分词;词语相似度计算;句子相似度计算
中图分类号:TP391.7文献标识码:A文章编号:1007-9599(2013)07-0000-02
随着计算机技术和通信技术的高速发展,计算机已经应用到人们生活中的各个领域。在教育
领域中,计算机实现试卷自动评阅是教育系统智能化必备的功能。一方面,计算机智能阅卷
能避免人为的误差,能够更客观的反映出评阅结果,保证了阅卷的客观公正性。另一方面,
电脑阅卷省去了老师在传统阅卷模式中主观题阅卷的体力劳动,让老师省出更多时间和精力
用在教学工作中。
主观题智能阅卷主要采用的技术路线是自然语言处理技术。按照主观题的评分流程,阅卷系
统主要分为五个部分:分句、分词、句法分析、词语相似度计算以及句子的相似度计算。
1分句
将答案分句是评分的第一个步骤,分句的粒度大小也将影响评分结果。本文将根据特定的标
点符号(句号、问号、分号、感叹号)作为句子的分隔符,将句子分为若干子句。在对参考
答案进行分句的时候,需要将之前录入的权值赋值给对应的每个子句。最后题目的得分应该
是各子句相似度的加权求和,用S具体计算如式(1):
(1)
Simi表示第i句的相似度,ßi表示第i句的权值,i取值范围为[0,n],n为子句的个数。
值得注意的是,参考答案每句话的权重是根据句子结束的标点符号来分配的,因此参考答案
录入和学生答题的时候每句话的标点符号必须正确填写。
2分词
由于分词及词性标注对准确率要求较高,如果这两个步骤出现错误,将会对后续步骤产生严
重影响。因此本文初步考虑使用已经相对成熟得分词工具来进行分词和词性标注。本文选择
的分词工具是中科院计算机研究所开发的ICTCLAS系统,它是最早的中文开源分词项目之
一。ICTCLAS提供了无词典分词及词性标注接口。它的分词速度单机可达966KB/S,分词精
确度达到了98.45%。在国内专家组组织的测评中获得了第一名。由于ICTCLAS没有考虑到
特定领域的专业名词,常常误把专业名词切分成多个词汇,分词就会出现一定的误差。因此
为实现对专业词汇识别,我们需要把这些相邻的被切分的词语重新组合成新词。本文最终采
用的是分词工具ICTCLAS结合最大匹配算法来实现分词,即在使用分词工具分好词的基础
上,在通过字符串匹配算法将词组重新匹配一次。这种方法大大提高了分词的精确度。
3句法分析
本文采用语言技术平台(LanguageTechnologyPlatform,LTP)作为句法分析器和谓词识
别工具。LTP是哈工大社会计算与信息检索研究中心历史十年开发的中文语言处理系统。它
的语义角色标注模型是一种浅层语义分析技术,它可以标注句子中某些短语为给定谓词的论
元,并可以识别出句子的谓语中心词。LTP的句法分析是建立在分词和词性标注基础上的。
它通过对句子结构的分析,可以识别出句子的谓语动词。在LTP的句法树种,HED标注指向
的词语一般可作为句子的谓语动词。
4词语相似度计算
本文采用的是基于《知网》的词语相似度算法。《知网》是董振东先生在1988年提出来
的。它是一个人类语言信息处理所必需的世界知识系统,是应用与文本的意义和内容计算的
强大工具。《知网》揭示了概念与概念之间的关系以及概念的属性与属性之间的关系。知网
中有两个主要的内容:“概念”和“义原”。在《知网》中,一个词语有n个概念,一个概
念有n个义原。所有义原按照父子关系形成了一个森林。基于知网的词语相似度计算可以通
过计算词语对应概念和义原的相似度得到。
4.1词语的相似度计算。W表示词语,S表示词语的概念,W={S1,S2,…,Sn},其中Sk表
示词语W的第K个概念。Sim(W1,W2)表示两个词语的相似度,它的取值是两个词语各概
念相似度的最大值,如式(2):
(2)
其中S1i表示词语w1的概念集,i=1…n(n为w1概念的个数);S2j表示词语w2的概念
集,j=1…n(j为w2概念的个数)。
4.2概念的相似度计算。计算两个概念之间的相似度,就是计算概念对应义原的相似度,并
加权求和。《知网》中的义原共分为四类:第一基本义原、其他基本义原、符号义原、关系
义原等。计算两个义原集合相似度有多种
文档评论(0)