- 12
- 0
- 约1.04万字
- 约 4页
- 2018-05-09 发布于福建
- 举报
2010年 9月 伊犁师范学院学报 (自然科学版) Sept.2010
第 3期 JournalOfYiliNormMUniverSity (N~uralScienceEdition) No.3
基于2-gram语言模型的哈萨克文语料库校对研究
伊力亚尔
(伊犁师范学院 计算机科学系,新疆 伊宁 835000)
摘 要:研究了带有位置信息的 2-garm音节模型,根据音节切分后前后音节的位置信息和
同现概率来判断非词错误,再根据最短编辑距离和viterbi算法来提供候选词.根据2元单词模型,
对输入文本以句子为单位,从判断前后2元单词的同现概率来判断真词错误,并提供候选词.
关键词:语料库;2-gram模型;音节切分;~terbi算法
中图分类号:TP391 文献标识码:A 文章编号:1673999X (2010)03—OO5o__104
例如: 应该是 L ,(级别);一 b 应
1 引言
该是 b (普通).
随着出版业的不断发展,电子书、电子报纸、 2.4 替代字母的拼写错误
电子邮件、办公文件等电子文本出版物不断出现, 例如:0 应该是 0 ,(读者).
如何保证这些文本的正确性,就显得越来越重要. 2.5 Shift键切换的拼写错误
目前英文、中文和土耳其文的电子文本校对 已经达 例如: 咛 应该是. (男子).
到了较高的水平.例如:张磊利用最大串匹配和有 2.6 换位字母的拼写错误
限状态识别的技术构建了一个混合的中文文本错 例如: b 应该是 (看).
误校对模型,获得 79%的召回率、64%的准确率和 2.7 字母中间加空格的拼写错误
75%的纠正率:Oflazer把编辑距离和有限状态识别 例如:0L工J一 应该是 灿 (加载).
相结合来处理土耳其文的校对. 2.8 哈萨克文特有的软音符号 “多”的脱落或添
中国少数 民族文文本的校对也有了一定的进 加错误
展,如:新疆大学多语种信息技术重点实验室的基 例妣 应该是 ’(所有的); 山
于词干提取和维吾尔文语法规则相结合的校对技 应该是 3- (知道).
术、基于大规模真词词典的校对技术都有了很大的 2.9 简称造成的错误
进步. 例如: c中国共产党;jI.; 新疆维吾尔
对于哈萨克文文本来说,要建设高质量语料 自治区;j.『一1联合国; I美利坚合众国.
库,第一个工作就是进行文本校对,语料库的规模
3 哈萨克文的音节
在不断增加,自动校对的任务就显得尤为重要.
哈萨克文的音节 由一个元音和多个辅音组
2 哈萨克文的错误类型
成,一个元音也可以构成一个音节.哈萨克语基本
2.1 丢字符的拼写错误 的音节形式有 (A表示元音,B表示辅音):A(1)、
例如: 应该是 (计划). AB (01)、BA ( )、BAB ( )、ABB ( ’)、
2.2 多字母的拼写错误 BABB( )六种形式.在外来语中还存在BBA
您可能关注的文档
最近下载
- 机关事业单位福利制度(新).pptx VIP
- 员工手册及管理制度7756Word文档.docx VIP
- 2025年济南市中考语文试题卷(含答案解析).docx
- 2025年公司员工手册(模板).docx VIP
- KENWOOD VA-2230A音频分析仪测试操作说明.pdf VIP
- 2025年黑龙江生态工程职业学院单招职业技能测试题库(含答案).docx VIP
- 2025年反腐倡廉教育PPT设计案例.pptx VIP
- 如何找回误删微信好友,微信好友一键恢复.doc VIP
- 第一单元第1 课《走近世界民间美术》教学设计人美版2025初中美术七年级下册.docx VIP
- 2025年辅警协警考试题库及答案.doc VIP
原创力文档

文档评论(0)