- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
输入“王菲”得到的人物关系图 如何描述一种语言? 穷举: 给出语言中所有的句子; 只适合含有有限多个句子的语言。 文法: 给出可以生成语言中所有句子的方法; 当且仅当能够用该方法产生的句子属于该语言。 自动机: 给出识别该语言中句子的机械方法; 可以检验输入句子是否属于该语言。 0型文法(type 0 grammar) 上下文有关文法(CSG) 上下文无关文法(CFG) 正则文法(RG) 请判断以下文法的类型 G1: S→CD Ab→bA C→aCA Ba→aB C→bCB Bb→bB AD→aD C→a BD→bD D→b Aa→bD G1是上下文有关文法 请判断以下文法的类型 G2:S→aB, A→bAA S→bA, B→b A→a, B→bS A→aS, B→aBB G2是上下文无关文法 请判断以下文法的类型 G3:S→0A A→1B S→1B B→1B S→0 B→1 A→0A B→0 A→0S G3是正则文法 自动机 文法、语言和自动机 2、上下文无关文法 3、转换生成文法 概率 最大似然估计 现代汉语字频统计结果:前20个最高频汉字及其频率 条件概率 例 全概率公式 贝叶斯定理 先验概率、后验概率 例 解 上述概率的计算量太大,解决问题的方法是将所有历史w1w2…wi-1按照某个规则映射到等价类S(w1w2…wi-1),等价类的数目远远小于不同历史的数目,即假定: 由于语言模型的训练文本T的规模及其分布存在着一定的局面性和片面性,许多合理的语言搭配现象没有出现在T中。 例如:一个词串Wi-N+1…Wi 没有出现在训练文本T中,该词串对应的上下文条件概率p(Wi|Wi-N+1…Wi )=0,从而导致该词串所在的语句S的出现概率p(S )=0。 N的选择:可靠性 vs. 辨别力 “我 正在 ________ ” 讲课?图书馆?听课?学习?借书?…… “我 正在 图书馆 ________” 学习? 借书?…… 可靠性 vs. 辨别力 更大的n: 对下一个词出现的约束性信息更多,更大的辨别力; 更小的n: 在训练语料库中出现的次数更多,更可靠的统计结果,更高的可靠性。 数据稀疏 N-gram模型的数据稀疏 Good-Turning估计 回退平滑 数据平滑的效果 统计语言模型的不足之处 数据平滑的效果与训练语料库的规模有关 数据平滑技术是构造高鲁棒性语言模型的重要手段 训练语料库规模越小,数据平滑的效果越显著 训练语料库规模越大,数据平滑的效果越不显著,甚至可以忽略不计 * 1.9 自然语言理解研究现状 近十几年来,统计方法成为了自然语言处理研究的主流方法; 近年来,统计方法和规则方法融合的趋势,统计模型更加复杂,可以将一些复杂的语言学知识融入到统计模型中,克服了早期统计模型无法处理长距离依赖问题的缺陷; 统计模型的深入研究,更加需要合适的语言学理论的指导,需要大规模的适用于自然语言处理的语言资源的支持; 中文词语切分技术已经比较成熟,但中文切分的领域自适应技术、命名实体识别技术、多粒度切分技术等都还有深入研究的必要; 中文的句法分析和语义角色标注距离英语都还有较大的差距,主要的困难在于中文缺乏明确的形态标记导致汉语句法分析的困难,句法语义一体化分析也许是下一步值得努力的方向; 自然语言处理的应用技术,包括信息检索、信息提取、机器翻译、自动文摘、自动问答等等近年来也取得了非常大的进展,一些技术已经走向实用,甚至极大地影响着人们的生活。 * 可以预期:自然语言处理还将处于在一个比较长时期的快速发展的轨道上,理论上的突破将给我们带来更多的惊喜,而在应用上也将为满足我们的需求作出更大贡献。 * * 中文自然语言处理技术的主要科目 * 参考文献 1、宗成庆,统计自然语言处理,清华出版社 2、王晓龙 ,关毅等, 计算机自然语言处理,清华大学出版社 2、姚天顺等, 自然语言理解, 清华大学出版社 3、王小捷,常宝宝,自然语言处理技术基础,北京邮电大学出版社 4、江铭虎,自然语言处理,高等教育出版社 本章小结 1、自然语言处理的概念 2、自然语言处理的应用 3、自然语言理解研究的问题 4、中文自然语言理解的难点 5、自然语言处理的技术 基于规则的自然语言处理 基于统计的自然语言处理 6、自然语言处理的研究现状 定义 给定所有可能的句子s,统计语言模型是一个概率分布p(s)。 假设一个句子S可以表示为一个序列S=w1w2…wn, 语言模型就是要求句子S的概率P(S): Wi是句中的第i个词,hi={w1,w2,…,wn-1}称为历史。 p(我是一个学生) =p
您可能关注的文档
最近下载
- 比价单(表格模板、DOC格式)..doc VIP
- 表A5评分表贵州施工企业现场安全管理.docx VIP
- 中班幼儿进餐环节中教师指导的现状调查研究.pdf VIP
- 2025年中国社区O2O行业市场深度分析及发展前景预测报告.docx
- 产品创新战略及实施路径.doc VIP
- 石油、石化和天然气工业用离心泵(GB_T3215—2019_API610 11th)标准解读.pdf VIP
- 协商协议书范本.doc VIP
- 中医及药膳-课件.pptx VIP
- 2025春国开一网一 管理英语3 写作形考任务答案(版本4)(85.5分).doc VIP
- 2024陆上风力发电机组预应力预制混凝土塔筒施工与质量验收规范.pdf VIP
原创力文档


文档评论(0)