- 1、本文档共69页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大学英语四级作文自动生成技术研究-计算机科学与技术专业论文
万方数据
万方数据
Classified Index: TP391.2 U.D.C: 681.37
Dissertation for the Master Degree in Engineering
RESEARCH ON AUTOMATIC CET-4 WRITING GENERATION
Candidate: Xing Haitao
Supervisor: Prof. Li Sheng
Academic Degree Applied for: Master of Engineering
Speciality: Computer Science and Technology
Affiliation: School of Computer Science and
Technology
Date of Defence: June, 2014
Degree-Conferring-Institution: Harbin Institute of Technology
摘
摘 要
摘 要
随着自然语言处理技术的发展,应用自然语言处理技术的成熟产品如 Siri 已经开始进入人们的日常生活中,激起了人们对自然语言处理技术的热情。 本课题旨在探究在如何利用现有的自然语言处理技术在自动生成大学英语四 级作文。围绕着这个任务,本文的研究主要涉及到以下几个方面:
(1)作文素材库的构建。本文利用互联网资源构建了以四级作文为资源 的素材库,其中主要是利用以英语教学为目的的门户网站以及搜索引擎获取 作文资源,并利用 Lucene 搭建了一个检索平台。
(2)利用可获取的候选文档,生成相应的四级作文。本文采取了从候选 文档中抽取句子,并对句子进行排序的策略来生成作文。基于该策略,本文 给出了三种不同技术下的作文生成研究:基于词频统计的作文生成、基于质 心聚类的作文生成以及基于主题模型的作文生成。对于任意给定的题目以及
候选文档,我们都可以通过上述三种技术来生成相应的四级英语作文。利用 评分工具的打分可以看出,三种技术生成的作文质量都会有高有低,但通过
对比实验结果发现,基于主题模型生成的作文在整体效果上要好于其余两种。 对比两种候选文档的方式,结果表明,使用范文作为候选文档生成的作文质 量要远远好于基于互联网获取的文档作为候选文档生成的作文质量。
(3)英语四级作文的自动评分。通过综合作文的内容特征、语言知识特 征以及篇章的连贯性特征,采用回归模型,本文给出了针对四级作文自动评 价方法。在评价作文内容特征时,我们考虑了其 N-gram 共现、Skip-gram 共
现、LCS 共现;在评价语言知识特征时,我们考虑了单词拼写以及语法错误; 在评价篇章连贯性时,我们考虑了包括词重叠、LSA 以及连接词三个方面的 指标。最后,训练出的回归模型,获得了相关系数为 0.83 的结果。
关键词: 作文生成;句子抽取;自动评分;自然语言处理技术
I
Ab
Abstract
Abstract
In recent years, some products based on Natural Language Processing technologies, like Siri, are stepping into our ordinary life gradually, which inspires people’s greater enthusiasm for Natural Language Processing. In our research, we want to explore the means of automatic CET-4 writing generation by using the existing Natural Language Processing technologies.
In this paper, we conduct our research in three aspects. And the general research content are presented as follows:
Firstly, we construct a repository getting candidate composition. We get the composition based on portals and Search Engines. And then build a retrieval system based on Lucene.
Secondly, we explore the technologies of generating composition. After we conduct a surve
您可能关注的文档
- 大学生心理健康智能分析系统的设计与应用-软件工程专业论文.docx
- 大学生心理健康及其学习倦怠的关系-发展与教育心理学专业论文.docx
- 大学生心理健康、人格特征与网络欺负的关系研究-心理学专业论文.docx
- 大学生心理危机干预机制探析-思想政治教育专业论文.docx
- 大学生心理健康观问卷的编制及应用-心理健康教育专业论文.docx
- 大学生心理弹性与心理控制源的关系研究-应用心理学专业论文.docx
- 大学生心理弹性对威胁词、情绪图片注意偏向的影响-应用心理学专业论文.docx
- 大学生心理控制源与自我反省的关系研究-应用心理学专业论文.docx
- 大学生心理弹性对注意偏向和记忆偏向的影响研究-心理学专业论文.docx
- 大学生心理档案指标体系的建构与管理-应用心理学专业论文.docx
- 某区纪委书记年度民主生活会“四个带头”个人对照检查材料.docx
- 某县纪委监委2024年工作总结及2025年工作计划.docx
- 某市场监督管理局2024年第四季度意识形态领域风险分析研判报告.docx
- 县委书记履行全面从严治党“第一责任人”职责情况汇报.docx
- 税务局党委书记2024年抓党建工作述职报告.docx
- 某市税务局副局长202X年第一季度“一岗双责”履行情况报告.docx
- 副县长在全县元旦春节前后安全生产和消防安全工作部署会议上的讲话.docx
- 某市委书记个人述职报告.docx
- 某县长在县委常委班子年度民主生活会个人对照检查材料1.docx
- 某县长在县委常委班子年度民主生活会个人对照检查材料.docx
文档评论(0)