- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第2章 数学基础
北京市海淀区中关村东路95号 电话:+86-10-8254 4688
邮编:100190 邮件:cqzong@
2.1 概率论基础
宗成庆: 《自然语言理解》讲义,第2 章 2/90
2.1 概率论基础
基本概念
概率(probability)
最大似然估计(maximum likelihood estimation)
条件概率(conditional probability)
全概率公式(full probability)
贝叶斯决策理论(Bayesian decision theory)
贝叶斯法则(Bayes’ theorem)
二项式分布(binomial distribution)
期望(expectation) 在自然语言处理中,以句子为处理单位
方差(variance) 时一般假设句子独立于它前面的其它语句,
句子的概率分布近似地符合二项式分布。
宗成庆: 《自然语言理解》讲义,第2 章 3/90
2.2 信息论基础
宗成庆: 《自然语言理解》讲义,第2 章 4/90
2.2 信息论基础
熵(entropy)
香农 (Claude Elwood Shannon)于1940年获得 MIT
数学博士学位和电子工程硕士学位后,于1941年加入
了贝尔实验室数学部,并在那里工作了15年。1948年6
月和10月,由贝尔实验室出版的《贝尔系统技术》杂
志连载了香农博士的文章《通讯的数学原理》,该文
奠定了香农信息论的基础。
熵是信息论中重要的基本概念。
宗成庆: 《自然语言理解》讲义,第2 章 5/90
2.2 信息论基础
如果X 是一个离散型随机变量,其概率分布为:
p (x) = P(X = x) ,x X 。X 的熵H(X) 为:
H ( X ) p(x) log 2 p(x) (1)
xX
其中,约定 0log 0 = 0 。
H(X) 也可以写为 H(p ) 。通常熵的单位为二进制位
比特(bit) 。
宗成庆: 《自然语言理解》讲义,第2 章 6/90
2.2 信息论基础
熵又称为自信息(self-information),表示信
源X 每发一个符号(不论发什么符号)所提供的
平均信息量。熵也可以被视为描述一个随机变
量的不确定性的数量。一个随机变量的熵越大,
它的不确定性越大。那么,正确估计其值的可
能性就越小。越不确定的随机变量越需要大的
信息量用以确定其值。
宗成庆: 《自然语言理解》讲义,第2 章 7/90
2.2 信息论基础
例2-3:计算下列两种情况下英文(26个字母和1个空格,
共27个字符)信息源的熵:(1)假设27个字符等概率出现;
(2)假设英文字母的概率分布如下:
字母 空格 E T O A N I R S
概率 0.1956 0.105 0.072 0.0654 0.063 0.059
您可能关注的文档
最近下载
- 《城市社区居家适老化改造技术标准》.pdf VIP
- 《深度访谈专题》课件.ppt VIP
- 体育赛事大型马拉松活动品牌推广赞助方案【体育赛事】【品牌推广】【ppt策划活动方案】.pptx VIP
- 风电进场道路清障施工方案.docx VIP
- 7《植物和我们》(课件)2025科学三年级上册粤教粤科版.ppt
- 《临床静脉导管维护操作专家共识》解读PPT.pptx VIP
- 西江月.夜行黄沙道中课件.ppt VIP
- 2024-2025学年天津市河东区七年级(上)第一次月考数学试卷+答案解析.pdf VIP
- 2020 KDOQI 慢性肾脏病临床实践营养指南.docx VIP
- 《成本会计学》实训资料(中国人民大学出版社版)参考答案.pdf VIP
文档评论(0)