基于余弦文本相似度计算英语作文评分算法应用研究.docVIP

下载本文档

28
0
约2.71千字
约 6页
2018-10-30 发布于福建
举报
版权申诉

基于余弦文本相似度计算英语作文评分算法应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于余弦文本相似度计算英语作文评分算法应用研究

基于余弦文本相似度计算英语作文评分算法应用研究　　摘要：本文采用TF-IDF算法以及余弦相似度的思想，提出了一种大批量英文作文的评分系统。首先以提高大批量英语作文评分效率为出发点，介绍了英文文本处理现状及机器自动评分发展现状。其次对如何实现机器评分做出了详细的介绍。最后将机器评分结果与人工打分结果相对比，验证机器评分可行性，评价其优缺点，并对其未来发展做出展望。　　关键词：批量处理；机器评分；预处理；余弦相似度；TF-IDF 　　中图分类号：TP391.1 文献标志码：A 文章编号：1674-9324（2018）06-0255-02 　　一、引言　　自然语言处理（Natural Language Processing，NLP）的应用领域非常广泛，它是人工智能领域的重要内容。计算机自动评分（Computer-Automated Scoring）是指通过计算机程序来对导入的开放式试题文件来按照一定的标准来进行评分[1]。英语写作是我国英语教学中很重要的一个教学环节，英语作文一般被老师用来检测学生的英语综合应用能力。而随着评分试卷数量的剧增，教师为了给学生批改英语作文，需要费心费力，一字一句的对作文进行评卷检查。长时间的评卷会造成教师过度劳累，导致评卷速度慢，效率低。再加上对作文这样的开放式命题进行人工评分，教师难免对作文会有一些个人偏向和喜好，不同的老师批改同样的作文也会批出不一样的分数。　　二、预处理　　文本预处理（Text preprocessing），英文的文本预处理包括以下几个步骤：除去数据中非文本部分，文本更正（如果忽略拼写错误，这一步可以省略），词干提取（stemming）和词干还原（lemmatization），转换为小写，去除停用词。　　1.去除数据中非文本部分。由于英语本身就以空格作为分隔符，因此不需要像汉语文本分词那样使用不同的算法进行分词。（1）去除所有的标点符号。（2）去除所有非英文字母的字符。（3）将所有的大写英文字母转换为小写。　　2.词干提取。英语单词总数虽没有汉语组词个数多，但具有非常丰富的词形变化。对作文进行分词后，应对每个词进行词干提取，以方便去除停用词或更好地进行词频统计。词项词干化对于分词结果的影响不大，但可以节省存储空间和提高搜索和处理效率。词干提取的方法大体可以分为两类：基于规则的方法，基于统计的方法。　　3.去除停用词。停用词：在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表[3]。但是，并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的[4]。　　三、TD-IDF算法　　对于一篇非常长的文章，想要提取它的关键词，只使用词频作为依据是不够的，比如在一篇研究高斯算法的文章中“均值”、“方差”、“算法”这三个词出现的次数是一样的，但是却不能说这三个词的重要性是一样的。根据我们人工分析，很明显地知道在高斯算法中“均值”、“方差”比“算法”更重要，单靠词频不能完全反映词项的权重。但是如果在这篇文档中“均值”出现的次数非常多，也应当给它较大的权重，单靠文档频率不能完全反映词项的权重。因此为了正确反映某个词项的重要性，引入了TF-IDF算法[6]。　　词频越大说明该词在该作文中出现的次数越多，逆文档频率越大说明该词越重要，因此选取TF-IDF最大的20个词作为关键词（若学生作文字数不足60词或去除停用词后词项不足20个则该作文作为不规范作文，评分时只给2-5分辛苦分）。对于范文和需要评分的作文均按照以上方法选取20个关键词。　　四、余弦相似度　　余弦相似度（Cosine similarity）是用向量空间中两个向量夹角的余弦值作为衡量两个文本之间的相似度。如果两篇文本之间用词越相似，那么这两篇文本之间的内容也就越相似。这就是余弦相似性的基本思想[7]。向量空间模型（VSM：Vector space model）在自然语言处理领域中是很常用的相似度计算模型，在目前的研究和发展中得到了很广泛的应用[7]。在向量空间模型中，我们可以根据每篇文章的词频计算得到一个词频向量，把两篇文章的词频向量想象成空间中的两条从坐标原点出发，指向不同方向的两条线段。这两条线段之间一定会形成一个夹角，夹角越小，也就意味着计算所得的余弦值越接近1，即两个向量距离越小，也就是用词越相似，在不涉及上下文的情况下，我们可以认为这两个文本的内容越相似。假定a向量是[x1，y1]，b向量是[x2，y2]，那么可以将余弦定理改写成下面的形式：　　五、实