- 1、本文档共26页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
bayesianmethod
The girl saw the boy with a telescope. The girl saw (the boy with a telescope). The girl (saw the boy) with a telescope. Example 3 中文分词 发展中国家 发展/中国/家 发展/中/国家 Example 3 中文分词 令X为字串,Y为词串 即要寻找使得 最大的Y 接下来我们来回顾一下贝叶斯定理 这是贝叶斯方法的核心 对于早期的概率论,现在我们看来确实是这个样子的 很无聊的一个问题,我们跳过,来看点有趣的。 h是词库里的单词 P(D)在这里是不重要的 先验概率。最大似然估计是不考虑先验概率,只考虑后面的第二项 用最大似然的问题在于,即使一个猜测与数据很好的符合,也并不代表这是一个好的猜测,比如有n个几乎在一条直线上的点..... 这个关于自然语言二义性的例子也说明了同样的问题 注意我这里给的例子,其实也说明了贝叶斯方法可以用于解决自然语言二义性的问题上 不知道大家是否想过,在做直线拟合的时候为什么要一偏移量平方的和最为判断拟合直线优劣的根据呢,贝叶斯方法可以提供一个完美的解释 最早的中文分词 从左往右扫,查询词典。 这种方式比较廉价,也能基本解决七八成问题 但是如果遇到了二义性问题吗,这种方法就行不通了 最早的中文分词 从左往右扫,查询词典。 这种方式比较廉价,也能基本解决七八成问题 但是如果遇到了二义性问题吗,这种方法就行不通了 当词串长度大时就会因为数据稀疏性的原因无法工作,因此,有人提出简化 这里k一般不超过3 独立假设是一个比较强的假设,但是在许多方面却十分有用 除此之外,关于贝叶斯方法,还有一个十分有名而且很有用的叫做贝叶斯网络。贝叶斯网络大致就是一种对马尔科夫链的一种推广,在这里就不详细介绍了 Bayesian Method 陈子豪 ACM Honored Class July 17th,2014 所谓的贝叶斯方法源于他生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在贝叶斯写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。 Origin Bayesian Theorem The theorem is trivial. 概率论只不过是把常识用数学公式表达了出来 ——拉普拉斯 Warm-up 一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗? Example 1 拼写纠正 Example 1 Input: thew Hypothesis: the ? thaw ? Definition Hypothesis: h1, h2 , ... ,hn Data: D Example 1 Why? 为什么要用贝叶斯公式? 为什么可以用贝叶斯公式 Example 1 Edit Distance(编辑距离): Minimum number of operations required to transform one string into the other. 为什么不从与D编辑距离的大小来判断? 为什么不从键盘的位置来判断? Example 1 最大似然估计 Example 1 Input:Tkp Hypothesis:Tip ? 0.00220% Top ? 0.0120% (data from Google Books Ngram Viewer) Example 2 最小二乘法 Example 2 最小二乘法 对于一个曲线 以及若干个点(x1,y1), (x2, y2), (x3, y3), ... ,(xn, yn) 对于横坐标为xi的所有点,他们的纵坐标的频率关于 呈正态分布
文档评论(0)