大学英语短文单词语法错误纠错模型研究-信号与信息处理专业论文.docx

下载文档 降价啦

30
0
约6.55万字
约 68页
2018-11-28 发布于上海
举报
版权申诉
保障服务

大学英语短文单词语法错误纠错模型研究-信号与信息处理专业论文.docx

1、本文档共68页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大学英语短文单词语法错误纠错模型研究-信号与信息处理专业论文

I I 摘要摘要自然语言处理技术是研究和实现人与计算机之间用自然语言进行有效沟通的理论和方法。近年来，随着计算机科学技术的发展和统计学习方法的有效应用，它已经成为人工智能和语义搜索领域的重要研究方向。对于英语文本的信息处理，如果其中的语义单元（单词与句子）存在错误，则不可避免的会影响到后续文本分析和语义理解，并最终降低实际应用系统的整体性能。因此，对英语文本中的单词与语法错误进行智能检错与纠错是自然语言处理的重点和难点之一。本文主要以大学英语短文作为研究对象，分析了其中存在的单词拼写错误和语法错误现象，对智能纠错中涉及到的数学统计模型和技术方案进行了深入的探讨，并通过权衡不同技术路线中的优缺点和实际开发的难度，实现了对大学英语短文中存在的单词和语法错误进行智能纠错。本文的研究成果主要体现在以下两个方面： 1. 对于单词拼写的检查与纠正，研究了非词错误中字母间的插入、丢失、替换和互换四种错误类型。重点解决了由于单词发音混淆导致的非词错误和词形多样化（如英文缩写、带连字符的复合词和专有名词等）带来的纠错问题。另外，对于真词错误，通过机器学习的方法提取语料库中的上下文语义特征，训练出真词纠正模型，并利用非词检查中的候选推荐信息，提出了基于推荐候选列表的最优组合预测算法，实验表明，该策略应用于上下文存在拼写错误的真词错误纠正的精确率达到 83.78%。 2．对于句子语法的检查与纠正，以文本训练集中的上下文信息为基础，结合了基于语法规则和基于统计模型的优点，对中国学生英语短文中主要存在的介词错误、句子成分残缺不全、名词的单复数不一致、单词词性混淆、主谓不一致和情态（助）动词失误等进行了分析和研究。它涉及到了句子边界消岐、单词的词性标记、命名实体识别、上下文信息提取等自然语言处理多个方面的技术。对于四六级难度的英语文本的实验表明，本文中提出的句子语法错误的检查与纠正的方案是有效的。关键词：英语文本检查；单词拼写检查；句子语法检查；N 元消岐模型；上下文语义分析. II II Abstract Abstract Natural language processing (NLP) technology is the theory and method which focus on the research and implementation of effective natural language communication between human and computer. In recent years, with the development of the computer science technology and efficient application in statistical learning method, NLP has become an important research direction in artificial intelligence and the field of semantic search. Considering the information processing in English essay, if the semantic elements (words and sentences) within the essay exist errors, it will inevitably produce a negative impact on the further text analysis and semantic comprehension and eventually the overall performance of the implemented system will degraded. Therefore, to detect and correct the errors existing in spelling and grammar intelligently is one of the priorities and difficulties in NLP. In this dissertation, the main research object is the college English essays and the errors phenomena appeared in misspelled words and ungrammatical sentences are analyzed. Via deeply exploring the mathematical statistic mode