很好ByYu2统计自然语言处理的概率基础.pptxVIP

  • 5
  • 0
  • 约4.19千字
  • 约 37页
  • 2017-06-05 发布于重庆
  • 举报

很好ByYu2统计自然语言处理的概率基础.pptx

很好ByYu2统计自然语言处理的概率基础

统计自然语言处理的 概率基础 徐志明 哈工大语言技术中心 目录 试验 样本空间 事件 事件概率 联合概率 条件概率 先验概率与后验概率 概率估计 概率的乘法公式 事件独立 Bayes公式 全概率公式 随机变量 分布函数 概率函数、概率密度函数 期望 方差 协方差 相关系数 常见的概率分布 试验 试验 一个可观察结果的人工或自然的过程,其产生的结果可能不止一个,且不能事先确定会产生什么结果 举例: 一个家庭有一个孩子。孩子是个男孩,还是女孩? 样本空间: 一个试验的全部可能出现的结果的集合。 每个结果,称为一个样本点。 举例: 一个家庭有两个孩子。样本空间 Ω = {男男,男女,女女} 事件 事件 一个试验的一些可能结果的集合,是样本空间的一个子集 举例:一个家庭有两个孩子。 样本空间 Ω = {男男,男女,女女} 事件A:至少有一个男孩{男男,男女} 事件B:至少有一个女孩{男女,女女} 事件运算(集合计算) 积:两个事件同时发生。交集:A∩B = {男女} 和:两个事件至少有一个发生。并集:A∪B = {男男,男女,女女}; 差:A发生,B不发生。差集:A – B = {男男}; 对立:事件A 的对立事件。补集:Ā = Ω – A = {女女}。 事件概率 概率:P(A) 是一个函数,用于度量事件A发生的可能性大小。 举例:计算一个词或一个句子的出现的概率。 概率函数的三个公理 P(A) ≥ 0; P(Ω) = 1(概率归一化); P(A∪B) = P(A)+P(B) if A∩B = Φ ; 推论 P(Φ) = 0; A⊆B ⇒ P(A) P(B) ; P(A∪B) = P(A)+P(B)-P(A∩B ); P(B – A) = P(B) – P(A∩B ); P(Ā) = 1 – P(A) 联合概率 两个事件的联合概率 事件A和B同时出现的概率。P (A∩B) ,P(A,B),P(AB) 举例: 计算搭配概率: P(美丽,鲜花) P(股票,投资) N个事件的联合概率: P(A1,A2,…An) 举例: 计算句子概率: P(我们,是,中国人) P(中国,有,五千年,历史) 条件概率 条件概率:P(A|B) 在事件B发生的条件下,事件A发生的概率。 P(A|B) = P(A,B)/P(B) 举例 注音概率:P(拼音|单词) P(yue4|乐), P(le4|乐) 词性标注:P(词性|单词) P(v|培训), P(n|培训) 词义标注:P(词义|单词) P(了不起|牛), P(动物|牛) 译文选择: P(译文词|原文词) P(me|我), P(I|我), 先验概率与后验概率 先验概率(prior probability) 在没有任何附加条件下的概率值。例如: P(A) 后验概率(posterior probability) 在某种先决条件下的概率值。例如:P(A|B) 概率估计 概率估计 最大似然估计(MLE)方法 重复n次试验,事件A出现次数为m,A的频率:f(A) = m/n 当n趋向无穷大时,频率稳定,逼近概率,P(A) = f(A) 。 注意:频率的稳定性,要求统计的充分性。 举例: 已知 语料库包含的总词数n; 词w在语料库中的出现次数为c(w) 词对(w1, w2)在语料库中的出现次数c(w1, w2) 概率计算 词w的出现概率P(w) = c(w) / n 词对(w1, w2)的联合概率P(w1, w2) = c(w1, w2)/n。 词对(w1, w2)的条件概率P(w2|w1) = c(w1, w2)/c(w1)。 概率的乘法公式 概率的乘法公式 P(A,B) = P(B) × P(A|B) = P(A) × P(B|A) 推广(链式规则) P(A1,A2…An) = P(A1)×P(A2|A1)×P(A3|A1,A2) …×P(An|A1,A2…,An-1) 举例: 计算句子概率 P(我们,是,中国人)= P(我们) × P(是|我们) × P(中国人|我们,是) 计算词性序列概率 P(det,adj,n) = P(det)×P(adj|det)×P(n|det,adj) 事件独立 定义:如果两个事件的发生,互不影响,则称它们相互独立。 等价性 A和B相互独立  P(A|B) = P(A) 且 P(B|A) = P(B)。 A和B相互独立  P(A,B) = P(A)×P(B) 推广 A1,A2…An相互独立 P(A1,A2,…An) = P(A1)×P(A2)×P(A3) …×P(An) 意义 事件独立性假设,忽略了事件间的依赖关系,将复杂的联合概率的计算问题简化为相对简单的各个事件概率计算。 举例: 句子概率 P(S)= P(w1,w2,…wn) = P(w1)×P(w2)×P

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档