基于2-gram语言模型的哈萨克文语料库校对研究.pdfVIP

  • 12
  • 0
  • 约1.04万字
  • 约 4页
  • 2018-05-09 发布于福建
  • 举报

基于2-gram语言模型的哈萨克文语料库校对研究.pdf

2010年 9月 伊犁师范学院学报 (自然科学版) Sept.2010 第 3期 JournalOfYiliNormMUniverSity (N~uralScienceEdition) No.3 基于2-gram语言模型的哈萨克文语料库校对研究 伊力亚尔 (伊犁师范学院 计算机科学系,新疆 伊宁 835000) 摘 要:研究了带有位置信息的 2-garm音节模型,根据音节切分后前后音节的位置信息和 同现概率来判断非词错误,再根据最短编辑距离和viterbi算法来提供候选词.根据2元单词模型, 对输入文本以句子为单位,从判断前后2元单词的同现概率来判断真词错误,并提供候选词. 关键词:语料库;2-gram模型;音节切分;~terbi算法 中图分类号:TP391 文献标识码:A 文章编号:1673999X (2010)03—OO5o__104 例如: 应该是 L ,(级别);一 b 应 1 引言 该是 b (普通). 随着出版业的不断发展,电子书、电子报纸、 2.4 替代字母的拼写错误 电子邮件、办公文件等电子文本出版物不断出现, 例如:0 应该是 0 ,(读者). 如何保证这些文本的正确性,就显得越来越重要. 2.5 Shift键切换的拼写错误 目前英文、中文和土耳其文的电子文本校对 已经达 例如: 咛 应该是. (男子). 到了较高的水平.例如:张磊利用最大串匹配和有 2.6 换位字母的拼写错误 限状态识别的技术构建了一个混合的中文文本错 例如: b 应该是 (看). 误校对模型,获得 79%的召回率、64%的准确率和 2.7 字母中间加空格的拼写错误 75%的纠正率:Oflazer把编辑距离和有限状态识别 例如:0L工J一 应该是 灿 (加载). 相结合来处理土耳其文的校对. 2.8 哈萨克文特有的软音符号 “多”的脱落或添 中国少数 民族文文本的校对也有了一定的进 加错误 展,如:新疆大学多语种信息技术重点实验室的基 例妣 应该是 ’(所有的); 山 于词干提取和维吾尔文语法规则相结合的校对技 应该是 3- (知道). 术、基于大规模真词词典的校对技术都有了很大的 2.9 简称造成的错误 进步. 例如: c中国共产党;jI.; 新疆维吾尔 对于哈萨克文文本来说,要建设高质量语料 自治区;j.『一1联合国; I美利坚合众国. 库,第一个工作就是进行文本校对,语料库的规模 3 哈萨克文的音节 在不断增加,自动校对的任务就显得尤为重要. 哈萨克文的音节 由一个元音和多个辅音组 2 哈萨克文的错误类型 成,一个元音也可以构成一个音节.哈萨克语基本 2.1 丢字符的拼写错误 的音节形式有 (A表示元音,B表示辅音):A(1)、 例如: 应该是 (计划). AB (01)、BA ( )、BAB ( )、ABB ( ’)、 2.2 多字母的拼写错误 BABB( )六种形式.在外来语中还存在BBA

文档评论(0)

1亿VIP精品文档

相关文档