- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
贝叶斯网络 */63 一个实例 */63 后验概率 c1、c2表示左右两个信封。 P(R),P(B)表示摸到红球、黑球的概率。 P(R)=P(R|c1)*P(c1) + P(R|c2)*P(c2):全概率公式 P(c1|R)=P(R|c1)*P(c1)/P(R) P(R|c1)=2/4 P(R|c2)=1/3 P(c1)=P(c2)=1/2 如果摸到一个红球,那么,这个信封有1美元的概率是0.6 如果摸到一个黑球,那么,这个信封有1美元的概率是3/7 */63 朴素贝叶斯的假设 一个特征出现的概率,与其他特征(条件)独立(特征独立性) 其实是:对于给定分类的条件下,特征独立 每个特征同等重要(特征均衡性) */63 以文本分类为例 样本:1000封邮件,每个邮件被标记为垃圾邮件或者非垃圾邮件 分类目标:给定第1001封邮件,确定它是垃圾邮件还是非垃圾邮件 方法:朴素贝叶斯 */63 分析 类别c:垃圾邮件c1,非垃圾邮件c2 词汇表:统计1000封邮件中出现的所有单词,记单词数目为N,即形成词汇表。 将每个样本si向量化:初始化N维向量xi,若词wj在si中出现,则xij=1,否则,为0。从而得到1000个N维向量x。 使用:P(c|x)=P(x|c)*P(c) / P(x) */63 分解 P(c|x)=P(x|c)*P(c) / P(x) P(x|c)=P(x1,x2…xN|c)=P(x1|c)*P(x2|c)…P(xN|c) P(x)=P(x1,x2…xN)=P(x1)*P(x2)…P(xN) 带入公式: P(c|x)=P(x|c)*P(c) / P(x) 等式右侧各项的含义: P(xi|cj):在cj(此题目,cj要么为垃圾邮件1,要么为非垃圾邮件0)的前提下,第i个单词xi出现的概率 P(xi):在所有样本中,单词xi出现的概率 P(cj) :(垃圾邮件)cj出现的概率 */63 关于朴素贝叶斯的若干探讨 遇到生词怎么办? 拉普拉斯平滑 编程的限制:小数乘积怎么办? 问题:一个词在样本中出现多次,和一个词在样本中出现一次,形成的词向量相同 由0/1改成计数 如何判定该分类器的正确率 样本中:K个生成分类器,1000-K个作为测试集 交叉验证 */63 贝叶斯网络 把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,就形成了贝叶斯网络。 贝叶斯网络(Bayesian Network),又称有向无环图模型(directed acyclic graphical model),是一种概率图模型,借由有向无环图(Directed Acyclic Graphs, DAG)中得知一组随机变量{X1,X2...Xn}及其n组条件概率分布(Conditional Probability Distributions, CPD)的性质。 */63 贝叶斯网络 一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,它们可以是可观察到的变量,或隐变量、未知参数等。连接两个节点的箭头代表此两个随机变量是具有因果关系(或非条件独立)。若两个节点间以一个单箭头连接在一起,表示其中一个节点是“因(parents)”,另一个是“果(children)”,两节点就会产生一个条件概率值。 每个结点在给定其直接前驱时,条件独立于其非后继。 */63 一个简单的贝叶斯网络 */63 全连接贝叶斯网络 每一对结点之间都有边连接 */63 一个“正常”的贝叶斯网络 有些边缺失 直观上: x1和x2独立 x6和x7在x4给定的条件下独立 x1,x2,…x7的联合分布: */63 对一个实际贝叶斯网络的分析 1+2+2+4+4=13 vs 2^5 */63 贝叶斯网络:警报 */63 贝叶斯网络:警报 全部随机变量的联合分布 */63 贝叶斯网络的形式化定义 BN(G, Θ) G:有向无环图 G的结点:随机变量 G的边:结点间的有向依赖 Θ:所有条件概率分布的参数集合 结点X的条件概率:P(X|parent(X)) 思考:需要多少参数才能确定上述网络呢? 每个结点所需参数的个数:结点的parent数目是M,结点和parent的可取值数目都是K:KM*(K-1) */63 特殊的贝叶斯网络 M个离散结点形成一条链,每一个结点有K个状态,则需要K-1+(M-1)K(K-1)个参数。这是关于长度M的线性函数。 别忘了,如果是全连接,需要KM-1个参数,是关于M的指数函数。 */63 通过贝叶斯网络判定条件独立—1 P(a,b,c)=P(c)*P(a|c)*P(b|c) 则:P(a,b|c)=P(a,b,c)/P(c) 带入,得到: P(a,b|c)=P(a|c)*P(b|c) 即:在c给定的条件下,a,b被阻断(blocked),是独立的。 条件独立:
您可能关注的文档
最近下载
- NB∕T 47010-2017 承压设备用不锈钢和耐热钢锻件(高清版).pdf VIP
- 车辆风险预警方法、路侧控制单元及风险预警控制系统.pdf VIP
- 2025年版《中文核心期刊要目总览》.docx VIP
- 密码学基础-密码学.ppt VIP
- 中国国家标准 GB/T 4706.1-2024家用和类似用途电器的安全 第1部分:通用要求.pdf
- 灯具安装技术交底1.docx VIP
- 乙烯三机:发展与未来.pptx VIP
- NB/T 47008-2017 承压设备用碳素钢和合金钢锻件.pdf VIP
- 密钥管理与密钥分配现代密码学.ppt VIP
- 初中信息技术校本课程《遨游3D世界,利用三维设计软件制作创意作品》教案.doc VIP
文档评论(0)