基于2-gram语言模型的哈萨克文语料库校对研究.pdfVIP

下载本文档

12
0
约1.04万字
约 4页
2018-05-09 发布于福建
举报

基于2-gram语言模型的哈萨克文语料库校对研究.pdf

2010年 9月伊犁师范学院学报 (自然科学版) Sept．2010 第 3期 JournalOfYiliNormMUniverSity (N~uralScienceEdition) No．3 基于2-gram语言模型的哈萨克文语料库校对研究伊力亚尔 (伊犁师范学院计算机科学系，新疆伊宁 835000) 摘要：研究了带有位置信息的 2-garm音节模型，根据音节切分后前后音节的位置信息和同现概率来判断非词错误，再根据最短编辑距离和viterbi算法来提供候选词．根据2元单词模型，对输入文本以句子为单位，从判断前后2元单词的同现概率来判断真词错误，并提供候选词．关键词：语料库；2-gram模型；音节切分；~terbi算法中图分类号：TP391 文献标识码：A 文章编号：1673999X (2010)03—OO5o__104 例如：应该是 L ，(级别)；一 b 应 1 引言该是 b (普通)．随着出版业的不断发展，电子书、电子报纸、 2．4 替代字母的拼写错误电子邮件、办公文件等电子文本出版物不断出现，例如：0 应该是 0 ，(读者)．如何保证这些文本的正确性，就显得越来越重要． 2．5 Shift键切换的拼写错误目前英文、中文和土耳其文的电子文本校对已经达例如：咛应该是． (男子)．到了较高的水平．例如：张磊利用最大串匹配和有 2．6 换位字母的拼写错误限状态识别的技术构建了一个混合的中文文本错例如： b 应该是 (看)．误校对模型，获得 79％的召回率、64％的准确率和 2．7 字母中间加空格的拼写错误 75％的纠正率：Oflazer把编辑距离和有限状态识别例如：0L工J一应该是灿 (加载)．相结合来处理土耳其文的校对． 2．8 哈萨克文特有的软音符号 “多”的脱落或添中国少数民族文文本的校对也有了一定的进加错误展，如：新疆大学多语种信息技术重点实验室的基例妣应该是 ’(所有的)；山于词干提取和维吾尔文语法规则相结合的校对技应该是 3- (知道)．术、基于大规模真词词典的校对技术都有了很大的 2．9 简称造成的错误进步．例如： c中国共产党；jI．；新疆维吾尔对于哈萨克文文本来说，要建设高质量语料自治区；j．『一1联合国； I美利坚合众国．库，第一个工作就是进行文本校对，语料库的规模 3 哈萨克文的音节在不断增加，自动校对的任务就显得尤为重要．哈萨克文的音节由一个元音和多个辅音组 2 哈萨克文的错误类型成，一个元音也可以构成一个音节．哈萨克语基本 2．1 丢字符的拼写错误的音节形式有 (A表示元音，B表示辅音)：A(1)、例如：应该是 (计划)． AB (01)、BA ( )、BAB ( )、ABB ( ’)、 2．2 多字母的拼写错误 BABB( )六种形式．在外来语中还存在BBA

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于2-gram语言模型的哈萨克文语料库校对研究.pdfVIP