自然语言的处理报告.ppt

下载文档 降价啦

10
0
约1.05万字
约 136页
2017-05-14 发布于湖北
举报
版权申诉
保障服务

自然语言的处理报告.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

输入“王菲”得到的人物关系图如何描述一种语言？穷举：给出语言中所有的句子；只适合含有有限多个句子的语言。文法：给出可以生成语言中所有句子的方法；当且仅当能够用该方法产生的句子属于该语言。自动机：给出识别该语言中句子的机械方法；可以检验输入句子是否属于该语言。 0型文法（type 0 grammar）上下文有关文法（CSG）上下文无关文法（CFG）正则文法（RG）请判断以下文法的类型 G1: S→CD Ab→bA C→aCA Ba→aB C→bCB Bb→bB AD→aD C→a BD→bD D→b Aa→bD G1是上下文有关文法请判断以下文法的类型 G2:S→aB, A→bAA　　 S→bA, B→b　　 A→a, B→bS　　 A→aS, B→aBB G2是上下文无关文法请判断以下文法的类型 G3:S→0A A→1B S→1B B→1B S→0 B→1 A→0A B→0 A→0S G3是正则文法自动机文法、语言和自动机 2、上下文无关文法 3、转换生成文法概率最大似然估计现代汉语字频统计结果：前20个最高频汉字及其频率条件概率例全概率公式贝叶斯定理先验概率、后验概率例解上述概率的计算量太大，解决问题的方法是将所有历史w1w2…wi-1按照某个规则映射到等价类S(w1w2…wi-1)，等价类的数目远远小于不同历史的数目，即假定：由于语言模型的训练文本T的规模及其分布存在着一定的局面性和片面性，许多合理的语言搭配现象没有出现在T中。例如：一个词串Wi-N+1…Wi 没有出现在训练文本T中，该词串对应的上下文条件概率p(Wi|Wi-N+1…Wi )=0，从而导致该词串所在的语句S的出现概率p(S )=0。 N的选择：可靠性 vs. 辨别力 “我正在 ________ ” 讲课?图书馆?听课?学习?借书?…… “我正在图书馆 ________” 学习? 借书?…… 可靠性 vs. 辨别力更大的n: 对下一个词出现的约束性信息更多，更大的辨别力；更小的n: 在训练语料库中出现的次数更多，更可靠的统计结果，更高的可靠性。数据稀疏 N-gram模型的数据稀疏 Good-Turning估计回退平滑数据平滑的效果统计语言模型的不足之处数据平滑的效果与训练语料库的规模有关数据平滑技术是构造高鲁棒性语言模型的重要手段训练语料库规模越小,数据平滑的效果越显著训练语料库规模越大,数据平滑的效果越不显著,甚至可以忽略不计 * 1.9 自然语言理解研究现状近十几年来，统计方法成为了自然语言处理研究的主流方法；近年来，统计方法和规则方法融合的趋势，统计模型更加复杂，可以将一些复杂的语言学知识融入到统计模型中，克服了早期统计模型无法处理长距离依赖问题的缺陷；统计模型的深入研究，更加需要合适的语言学理论的指导，需要大规模的适用于自然语言处理的语言资源的支持；中文词语切分技术已经比较成熟，但中文切分的领域自适应技术、命名实体识别技术、多粒度切分技术等都还有深入研究的必要；中文的句法分析和语义角色标注距离英语都还有较大的差距，主要的困难在于中文缺乏明确的形态标记导致汉语句法分析的困难，句法语义一体化分析也许是下一步值得努力的方向；自然语言处理的应用技术，包括信息检索、信息提取、机器翻译、自动文摘、自动问答等等近年来也取得了非常大的进展，一些技术已经走向实用，甚至极大地影响着人们的生活。 * 可以预期：自然语言处理还将处于在一个比较长时期的快速发展的轨道上，理论上的突破将给我们带来更多的惊喜，而在应用上也将为满足我们的需求作出更大贡献。 * * 中文自然语言处理技术的主要科目 * 参考文献 1、宗成庆，统计自然语言处理，清华出版社 2、王晓龙，关毅等，计算机自然语言处理，清华大学出版社 2、姚天顺等，自然语言理解，清华大学出版社 3、王小捷，常宝宝，自然语言处理技术基础，北京邮电大学出版社 4、江铭虎，自然语言处理，高等教育出版社本章小结 1、自然语言处理的概念 2、自然语言处理的应用 3、自然语言理解研究的问题 4、中文自然语言理解的难点 5、自然语言处理的技术基于规则的自然语言处理基于统计的自然语言处理 6、自然语言处理的研究现状定义给定所有可能的句子s，统计语言模型是一个概率分布p(s)。假设一个句子S可以表示为一个序列S=w1w2…wn, 语言模型就是要求句子S的概率P(S)： Wi是句中的第i个词，hi={w1,w2,…,wn-1}称为历史。 p(我是一个学生) =p