网站大量收购闲置独家精品文档,联系QQ:2885784924

大学英语四级作文自动生成技术研究-计算机科学与技术专业论文.docx

大学英语四级作文自动生成技术研究-计算机科学与技术专业论文.docx

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大学英语四级作文自动生成技术研究-计算机科学与技术专业论文

万方数据 万方数据 Classified Index: TP391.2 U.D.C: 681.37 Dissertation for the Master Degree in Engineering RESEARCH ON AUTOMATIC CET-4 WRITING GENERATION Candidate: Xing Haitao Supervisor: Prof. Li Sheng Academic Degree Applied for: Master of Engineering Speciality: Computer Science and Technology Affiliation: School of Computer Science and Technology Date of Defence: June, 2014 Degree-Conferring-Institution: Harbin Institute of Technology 摘 摘 要 摘 要 随着自然语言处理技术的发展,应用自然语言处理技术的成熟产品如 Siri 已经开始进入人们的日常生活中,激起了人们对自然语言处理技术的热情。 本课题旨在探究在如何利用现有的自然语言处理技术在自动生成大学英语四 级作文。围绕着这个任务,本文的研究主要涉及到以下几个方面: (1)作文素材库的构建。本文利用互联网资源构建了以四级作文为资源 的素材库,其中主要是利用以英语教学为目的的门户网站以及搜索引擎获取 作文资源,并利用 Lucene 搭建了一个检索平台。 (2)利用可获取的候选文档,生成相应的四级作文。本文采取了从候选 文档中抽取句子,并对句子进行排序的策略来生成作文。基于该策略,本文 给出了三种不同技术下的作文生成研究:基于词频统计的作文生成、基于质 心聚类的作文生成以及基于主题模型的作文生成。对于任意给定的题目以及 候选文档,我们都可以通过上述三种技术来生成相应的四级英语作文。利用 评分工具的打分可以看出,三种技术生成的作文质量都会有高有低,但通过 对比实验结果发现,基于主题模型生成的作文在整体效果上要好于其余两种。 对比两种候选文档的方式,结果表明,使用范文作为候选文档生成的作文质 量要远远好于基于互联网获取的文档作为候选文档生成的作文质量。 (3)英语四级作文的自动评分。通过综合作文的内容特征、语言知识特 征以及篇章的连贯性特征,采用回归模型,本文给出了针对四级作文自动评 价方法。在评价作文内容特征时,我们考虑了其 N-gram 共现、Skip-gram 共 现、LCS 共现;在评价语言知识特征时,我们考虑了单词拼写以及语法错误; 在评价篇章连贯性时,我们考虑了包括词重叠、LSA 以及连接词三个方面的 指标。最后,训练出的回归模型,获得了相关系数为 0.83 的结果。 关键词: 作文生成;句子抽取;自动评分;自然语言处理技术 I Ab Abstract Abstract In recent years, some products based on Natural Language Processing technologies, like Siri, are stepping into our ordinary life gradually, which inspires people’s greater enthusiasm for Natural Language Processing. In our research, we want to explore the means of automatic CET-4 writing generation by using the existing Natural Language Processing technologies. In this paper, we conduct our research in three aspects. And the general research content are presented as follows: Firstly, we construct a repository getting candidate composition. We get the composition based on portals and Search Engines. And then build a retrieval system based on Lucene. Secondly, we explore the technologies of generating composition. After we conduct a surve

您可能关注的文档

文档评论(0)

peili2018 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档