- 56
- 0
- 约3.87千字
- 约 6页
- 2016-03-19 发布于安徽
- 举报
输入法中统计语言模型的建立以及平滑(java版).doc
输入法中统计语言模型的建立以及平滑(java版)
目前正在编写手机平台上的输入法,在输入法中要向实现句子级别的智能输入,必须借助统计语言模型,依靠统计语言模型中的词概率值,输出最可能的句子。下面将介绍统计语言模型的建立以及平滑。
目前输入法中常用的语言模型有trigram(三元)和bigram(二元),其中微软拼音、智能狂拼使用的是trigram,谷歌拼音、搜狗拼音和紫光则是bigram。本文以二元模型为例来说明模型的建立和平滑。
下面分三个方面来介绍:
语料库的预处理
模型的建立
模型的平滑
一.语料库的预处理
原始语料库来源于北京大学语言研究所提供的98年1月人民日报标注语料。下载的已切分的语料都是形如04-012-001/m现实/n的/u顿悟/vn却/d被/p描/v出/v形/Ng来/v。/w”,有的前面还保留了日期编号,因为这些切分语料的来源是人民日报。预处理主要是按标点符号分句,句子简单定义为(。?!:;)这五种标点符号结尾的词串,句子首尾分别添加和这两个表示句子开始和结束的标记,这在2-gram建模时要用的,后面会提到。处理过程中,忽略词类信息和前面的日期信息,因为我这个切分系统不考虑词类标注。如前面这句预处理后应该为下面形式“现实的顿悟却被描出形来。”,当然切分词之间你可以用你想用的符号
您可能关注的文档
- 话说我国税收文化传统.doc
- 语文教师招聘说课:《琵琶行》说课稿.doc
- 语文暑假作业答案.doc
- 语文配套练习册答案.doc
- 课前三分钟英语演讲稿.doc
- 课文青山不老教案.doc
- 谁来维护保姆的合法权益?.doc
- 谈中国外贸企业发展策略.doc
- 谈中国对外投资的经济效应与对策.doc
- 谈会计在反倾销中的作用.doc
- 2025年下半年小学教师资格考试简答题汇总.pdf
- 护理教学比赛资源整合.pptx
- 2022泰和安消防 JTGB-HM-TX3H01 JTGB-HM-TX3H02 TGB-HM-TX3H03 系列点型红外火焰探测器.docx
- 2025年驾驶证资格考试最新最全交通标志大全.pdf
- 护理教学理念:更新与发展.pptx
- 2025年新驾考科目一巧记速记口诀(全国通用).pdf
- 2025年一级建造师《项目管理》黄金预测考点【打印版】.pdf
- 证券公司高级管理人员资质测试章节练习-第一部分综合类第六章至七章:证券投资基金法、信托法.pdf
- 护理教学研究:方法与成果.pptx
- 麻纺车间设备更新准则.docx
原创力文档

文档评论(0)