蒙古文文本自动校对探究综述包.docVIP

下载本文档

10
0
约4.89千字
约 9页
2017-06-15 发布于福建
举报
版权申诉

蒙古文文本自动校对探究综述包.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

蒙古文文本自动校对探究综述包

蒙古文文本自动校对探究综述包　　摘要：本文首先介绍了蒙古文文本错误产生的原因和类型以及蒙古文正字法规则，重点介绍了3种蒙古文文本自?有６苑椒ǎ喊?括基于词典与规则校对方法、基于有限状态自动机的校对方法、基于统计模型的校对方法等，最后探讨了蒙古文文本校对需要解决的问题和未来的发展方向关键词：蒙古文；自动校对；有限状态自动机；统计模型中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2016）35-0227-03 Survey of Mongolian Text Automatic Proofreading BAO Wugedele1，2， LI Juan2 （1. Minzu University of China， Beijing 100081， China； 2. Hohhot Minzu College， Hohhot 010051， China） Abstract： The causes and types of Mongolian text errors， and Mongolian orthography are first presented. Then， three kinds of Mongolian text automatic proofreading methods adopted are focused， including based on dictionary and rules， based on finite state automaton， and based on statistical model method. Finally， the problems need to be solved and the future developing directions of Mongolian text automatic proofreading are discussed. Key words： Mongolian； automatic proofreading； finite state automaton（FSA）； statistical model 随着蒙古文信息处理和互联网技术的发展，蒙古文语料库的规模也不断壮大。在对蒙古文进行词法分析、句法分析、语义分析时都需要高质量的标注语料库。由于蒙古文自身的语法特点，存在着大量的形同音不同的词和音同形不同的词，这就要求录入人员具有较高的蒙古语语法知识才能准确地录入蒙古文文本。但是，目前很多人还不能完全掌握这些语法知识，录入的蒙古文文本中存在大量的错误，需要经过校对以后才能作为进一步研究的原始语料自动校对指的是程序按照一定的算法自动检查文本中的错误并对错误进行纠错或提供纠错建议[1] 1 蒙古文文本错误产生的原因和类型 1.1 编码转换产生的错误由于蒙古文标准化工作的滞后，在蒙古文Unicode国际标准编码发布以前已经在市场上出现了多种蒙古文编码，这些编码统称为非国际标准编码，其中常用的编码包括：蒙科立编码、赛音编码、明安图编码、方正编码等。蒙科立、明安图和方正编码属于音形编码，赛音编码属于完全的形码，而Unicode国际标准编码则属于完全的音码。还有一个常用的蒙古文编码是拉丁编码，是由拉丁字母转写的编码，属于音码，它基本上能与Unicode国际标准编码一一对应，所以现在常用的蒙古文语料库都采用拉丁编码表示非国际标准编码存储的蒙古文转换为Unicode国际标准编码时，就会出现转换错误，因为这些编码并不是与Unicode国际标准编码一一对应，做不到完全正确的编码转换，所以转换成Unicode国际标准编码以后还需要校对 1.2 键盘录入产生的错误目前，常见的文字录入技术和方法主要有键盘录入、语音识别、文字识别和手写识别[2]。对于英文和中文以上四种方式录入的文本的正确率都很高，已达到应用要求，而对于蒙古文后三种识别技术还不能达到应用要求，所以键盘录入还是蒙古文的主要录入方式。蒙古文的原始语料基本上都是从键盘录入的现在人们常用的蒙古文输入法有蒙科立输入法、赛音输入法、明安图输入法、方正输入法和微软输入法（windows 7/8/10）等。除了微软输入法，其他输入法虽然简单易用，但是只能输入非国际标准编码的蒙古文，而微软输入法则可以输入Unicode国际标准编码蒙古文。微软输入法在输入分写词缀、分写元音、特殊字母变体时都需要使用不同的控制符，由于这些控制符的使用规则非常复杂，很多人滥用控制符而违反了蒙古文正字法规则，录入的词虽然在字形上完全正确，但是内部编码却是错误的。所以由微软输入法录入的Unicode国际标准编码蒙古文文本还需