- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
[第二章数学基础
第二章 数学基础 第二章 数学基础 数学是大自然的语言,数学是科学的语言 语言是大自然的产物,语言学是科学的一个分支 两种方法的区别 缺乏数学基础的方法 打补丁的经验方法adhoc方法 概率论 为什么将概率论作为数学基础的重点? 统计语言处理技术已经成为主流 统计语言处理的步骤 收集自然语言词汇(或者其他语言单位)的分布情况 根据这些分布情况进行统计推导 最典型的例子:构造统计语言模型 概率理论能够帮助我们找到这样的模型 概率论基础 概念 条件概率 联合概率 独立 贝叶斯定理(Bayes’ Theorem) 随机变量 数学期望 方差 构造语言的模型P(T) 为估算P,我们必须看看 在大规模真实文本中词的 分布状况 概念 概率论是研究随机现象的数学分支 所谓随机现象是指这样的一类现象,当人们观察它时, 所得到的观察结果不是确定的,而是许许多多可能结果中的一种 概率(Probability)则是衡量该事件发生的可能性的量度 概率函数 概率函数 样本空间 Ω 是一个随机试验所有可能的结果的集合 事件 A 是Ω的子集 概率函数 (或者概率分布) 例 概率函数 (或者概率分布) 例 例1 现代汉语字频统计。由北京航空学院和国家语言文字工作委员会于1985年完成。 从1977年至1982年间社会科学和自然科学的规模为一千一百零八万余字的语料中 利用计算机进行统计得到汉字的字频, 前20个最高频汉字列出如表所示。 字频的启示 字频的启示 频率较高的字-没有实在意义的虚字,在实际应用中, 例如信息检索,我们要过滤这样无意义的高频虚词,称为 Stopword 字频(词频)对于词典编撰工作有指导意义 词频甚至反映了国家政策的变化 汉字的信息量大 信息时代对于汉字的重新认识 汉字的信息量大 中国科学家冯志伟计算12366个汉字的信息熵为9.65比特,英语为4.16比特 汉字的信息量最大,世界冠军 表示一个汉字需要2个字节 在信息编码、存储和传输等方面汉字处于不利的地位 信息时代对于汉字的重新认识 中文信息处理发展早期 汉字低劣论 汉字是中国文化的毒癌 汉字不灭,中国必亡 汉语拉丁化研究 汉语早已克服了汉字输入输出的障碍 随着网络时代的发展,网络上的中文信息量已经居于第二的位置 汉字优越论 安子介 汉字是中国的第五大发明 我敢断言,到了21世纪,汉字必然成为世界语 我们的认识 汉字是世界上硕果仅存的象形文字(古埃及圣书字,两河流域楔形文字), 对汉文化的传承和发展做出了巨大贡献.既有固有的缺点,也有优越性,将是一种长期的客观存在, 随着中国国力的增强,汉字的影响力逐渐扩大,作为有志于从事中文语言研究的同学们来说 应该积极吸取西文计算语言学研究的优秀成果,丰富和完善汉语的计算语言学研究,前途光明 条件概率 对于随机试验的结果有部分知识(或者约束条件) 条件概率(Conditional probability) 条件概率(Conditional probability) 在我们已知B为真的条件下A 为真的概率可以表示为P(A|B) 例 P(大学)=0.0003 P(大学|哈尔滨/工业)=? 先验概率(prior probability) 后验概率(posterior probability) 联合概率 P(A,B)=P(A)P(B|A)=P(B)P(A|B) P(A,B,C,D…) = P(A)P(B|A)P(C|A,B)P(D|A,B,C..) 例 P(哈尔滨/工业/大学)=P(哈尔滨)P(工业|哈尔滨)P(大学|哈尔滨/工业) 独立 两个事件 A 与 B 相互独立如果 P(A) =P(A|B)?P(A,B)=P(A)*P(B) 例 “非”和“典” 两个事件 A 与 B 是在条件C下相互条件独立如果: P(A|C) = P(A|B,C) 贝叶斯定理(Bayes’ Theorem) 由于 因此 Bayes’Theorem使我们能够交换事件之间的条件依赖的顺序 举例:音字转换 随机变量 随机变量(Random variables)(RV)使我们能够讨论与样本空间相关的数值的概率值 离散型随机变量 连续型随机变量 数学期望 随机变量的均值 方差 随机变量取值是否比较一致或者有很大差异的一个量度 例 发现新词 σ 是标准差(standard deviation),简称SD 构造语言的模型P(T) 为估算P,我们必须看看 在大规模真实文本中词的 分布状况 基于频度的统计 贝叶斯统计 基于频度的统计 基本思想 两种方法 比较最大相关度来选择模型 基本思想 相关频度(频率):事件 u 发生的次数与所有事件总次数的比率 C(u) 在N次实验中u 发生的次数 当n- infinitive
原创力文档


文档评论(0)