- 1、本文档共39页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据平滑技术
常宝宝
大学计算语言学研究所
chbb@pku.edu.cn
元模型
= | … …
1 2 1 3 1 2 −+1 −+2 −1
= ෑ( | … )
−+1 −+2 −1
=1
• 一元模型(=1, unigram)
= …( ) …( )
1 2
• 二元模型(=2, bigram)
= … ….( | )
1 2 1 −1 −1
• 三元模型(=3, trigram)
= … …
1 2 1 −2 −1 −2 −1
数据稀疏
• 元组在语料中的分布是长尾分布
• 大多数元组在语料中的出现是稀疏的
• 最大似然估计(MLE)给训练语料中未出现的元组赋0概率
• 扩大语料规模并 完全解决数据稀疏问题
• 平滑技术
①把在训练语料中出现过的元组的概率适当减小
②把减小所得到的概率质量分配给训练语料中没有出现
过的元组
平滑技术概要
• 存在多种不同的数据平滑技术
• 简单平滑
– 加法平滑
– 留存平滑
– Good Turing平滑
– …
• 组合平滑 组合不同阶别的模型,获得
– 插值平滑 更好的语言模型。
– 回退平滑
加法平滑
• Add-one平滑:规定n元组比真实出现次数多一次
_ − = _ − + 1
…
1 2
… =
1 −1
…
1 2 −1
⇓
… + 1
1 2
… =
+1 1 −1 … + ||
1 2 −1
• 没有出现过的元组的概率不再是0 ,而是一个较
您可能关注的文档
- 沪江网校b2班65-68课讲义b2-67-听力理解20.pdf
- marc基本操作手册marc操作基本手册12.pdf
- 乐高动物园11可爱的小毛虫.pdf
- se01储能bms中英文规格书.pdf
- 2020年咨询-现代咨询方法与实务-精讲班-59、第七章工程项目投资估算三.pdf
- 专题7大陆表生成矿过程与富集规律向宇.pdf
- suc2009-2013年路虎range rover sport 4 4l汽油机全套原厂中文f动力转向-动力转向.pdf
- 西安基培项目邀请函0524.pdf
- 2六级基础语法课程六级基础语法.pdf
- 联想手机全型号维修图纸联想p1c58电路图passion_8939_mb_prc_h301_sch.pdf
文档评论(0)