- 5
- 0
- 约4.19千字
- 约 37页
- 2017-06-05 发布于重庆
- 举报
很好ByYu2统计自然语言处理的概率基础
统计自然语言处理的概率基础
徐志明
哈工大语言技术中心
目录
试验
样本空间
事件
事件概率
联合概率
条件概率
先验概率与后验概率
概率估计
概率的乘法公式
事件独立
Bayes公式
全概率公式
随机变量
分布函数
概率函数、概率密度函数
期望
方差
协方差
相关系数
常见的概率分布
试验
试验
一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果
举例:
一个家庭有一个孩子。孩子是个男孩,还是女孩?
样本空间:
一个试验的全部可能出现的结果的集合。
每个结果,称为一个样本点。
举例:
一个家庭有两个孩子。样本空间 Ω = {男男,男女,女女}
事件
事件
一个试验的一些可能结果的集合,是样本空间的一个子集
举例:一个家庭有两个孩子。
样本空间 Ω = {男男,男女,女女}
事件A:至少有一个男孩{男男,男女}
事件B:至少有一个女孩{男女,女女}
事件运算(集合计算)
积:两个事件同时发生。交集:A∩B = {男女}
和:两个事件至少有一个发生。并集:A∪B = {男男,男女,女女};
差:A发生,B不发生。差集:A – B = {男男};
对立:事件A 的对立事件。补集:Ā = Ω – A = {女女}。
事件概率
概率:P(A)
是一个函数,用于度量事件A发生的可能性大小。
举例:计算一个词或一个句子的出现的概率。
概率函数的三个公理
P(A) ≥ 0;
P(Ω) = 1(概率归一化);
P(A∪B) = P(A)+P(B) if A∩B = Φ ;
推论
P(Φ) = 0;
A⊆B ⇒ P(A) P(B) ;
P(A∪B) = P(A)+P(B)-P(A∩B );
P(B – A) = P(B) – P(A∩B );
P(Ā) = 1 – P(A)
联合概率
两个事件的联合概率
事件A和B同时出现的概率。P (A∩B) ,P(A,B),P(AB)
举例:
计算搭配概率:
P(美丽,鲜花)
P(股票,投资)
N个事件的联合概率: P(A1,A2,…An)
举例:
计算句子概率:
P(我们,是,中国人)
P(中国,有,五千年,历史)
条件概率
条件概率:P(A|B)
在事件B发生的条件下,事件A发生的概率。
P(A|B) = P(A,B)/P(B)
举例
注音概率:P(拼音|单词)
P(yue4|乐), P(le4|乐)
词性标注:P(词性|单词)
P(v|培训), P(n|培训)
词义标注:P(词义|单词)
P(了不起|牛), P(动物|牛)
译文选择: P(译文词|原文词)
P(me|我), P(I|我),
先验概率与后验概率
先验概率(prior probability)
在没有任何附加条件下的概率值。例如: P(A)
后验概率(posterior probability)
在某种先决条件下的概率值。例如:P(A|B)
概率估计
概率估计
最大似然估计(MLE)方法
重复n次试验,事件A出现次数为m,A的频率:f(A) = m/n
当n趋向无穷大时,频率稳定,逼近概率,P(A) = f(A) 。
注意:频率的稳定性,要求统计的充分性。
举例:
已知
语料库包含的总词数n;
词w在语料库中的出现次数为c(w)
词对(w1, w2)在语料库中的出现次数c(w1, w2)
概率计算
词w的出现概率P(w) = c(w) / n
词对(w1, w2)的联合概率P(w1, w2) = c(w1, w2)/n。
词对(w1, w2)的条件概率P(w2|w1) = c(w1, w2)/c(w1)。
概率的乘法公式
概率的乘法公式
P(A,B) = P(B) × P(A|B) = P(A) × P(B|A)
推广(链式规则)
P(A1,A2…An) = P(A1)×P(A2|A1)×P(A3|A1,A2) …×P(An|A1,A2…,An-1)
举例:
计算句子概率
P(我们,是,中国人)= P(我们) × P(是|我们) × P(中国人|我们,是)
计算词性序列概率
P(det,adj,n) = P(det)×P(adj|det)×P(n|det,adj)
事件独立
定义:如果两个事件的发生,互不影响,则称它们相互独立。
等价性
A和B相互独立 P(A|B) = P(A) 且 P(B|A) = P(B)。
A和B相互独立 P(A,B) = P(A)×P(B)
推广
A1,A2…An相互独立 P(A1,A2,…An) = P(A1)×P(A2)×P(A3) …×P(An)
意义
事件独立性假设,忽略了事件间的依赖关系,将复杂的联合概率的计算问题简化为相对简单的各个事件概率计算。
举例:
句子概率 P(S)= P(w1,w2,…wn) = P(w1)×P(w2)×P
您可能关注的文档
- 建筑工程面积计算规范图解.pptx
- 建筑师课件16建筑材料与构造(建筑材料)—路永华.pptx
- 建筑施工扣件式脚手架规范JGJ1302011宣讲.pptx
- 建筑材料水泥混凝土教学课件.pptx
- 建筑结构与识图第五章剪力墙结构.pptx
- 建筑装修技术饰面装饰工程施工.pptx
- 建筑美学时代.pptx
- 建筑设备工程 第三编 建筑电气电工基本知识 16建筑电气施工图.pptx
- 建筑深基坑工程施工安全技术规范(JGJ3112013)宣贯讲义.pptx
- 建筑防水工程技术规程5防水施工(上).pptx
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
最近下载
- 中医护理技术在骨科中的应用.ppt VIP
- 非煤矿山节后复工安全培训.pptx VIP
- 吉林省松原市长岭县2025~2026学年度下学期第一次月考试卷 八年英语(含答题卡、答案).docx VIP
- 2019新人教版高中英语必修二Unit4词汇表.pdf VIP
- 2025年上半年中国铁路西安局集团有限公司校招笔试题带答案.docx VIP
- 教育学原理-第三章-教育与人的发展【实用参考】.ppt VIP
- 婴幼儿早期教育课程标准.docx VIP
- 景成道人培训课件.ppt VIP
- 2022年高中军训心得体会(集合15篇).docx VIP
- (统编版2024)语文七年级下册 第三单元《课外古诗词诵读》课件(新教材).pptx
原创力文档

文档评论(0)