第七章自然语言理解.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* 词义歧义 打[玩]乒乓球 打[编制]毛衣 打[通讯]电话 …… 语用歧义 “你真讨厌!” 病构 真实文本的语言现象非常复杂,不规范,不干净 自然语言中存在未知的语言现象 新的词汇: 例如: “非典” 、专业术语、外来语、人名等 新的词义: 例如:窗口、奔腾等 新的语句结构:尤其在口语或网络语言,不断出现一些“非规范的”新的语句结构。 例子:他很男人。(名词不能受程度副词修饰) 由于作者疏忽造成的错误 真实的语言是非常脏的 重述(Paraphrasing) 举例 毛泽东出生于1893年 毛泽东出生在1893年 毛泽东诞生于1893年 毛泽东同志是1893年出生的 毛主席生于1893年 毛泽东生于光绪6年(虚拟的) 层间循环依赖问题 循环依赖 高层模块建立在底层模块分析的基础上 底层模块需要高层模块的指导才能准确分析 如何克服这种致命的矛盾 简单级联 每层的准确率是90%,如果系统分6层,最终结果是:53%;即使每层95%,最终结果73% 一体化:如分词/词性标注一体化 反馈 人是怎么做的? 人在瞬间综合运用各个层面的知识 NLP方法论 理性主义和经验主义 对语言知识来源的不同认识 理性主义 信仰Chomsky的语言本能的观点。(先天论) 先天语言结构:人的大部分语言知识是与生俱来的,由遗传决定的。 经验主义 人的语言知识是从感官的输入,通过联想、模式识别、泛化等操作学习到的。(学习论) 学习:从大量语言数据中学习复杂、广泛的语言知识。 理性主义和经验主义 研究对象不同 理性主义 研究人的语言知识结构。 试图书写大量的语言规则,复制人脑中的语言模型。 结构主义者 经验主义 研究大规模真实文本,认为语料库是语言知识的来源。 将语言视为随机现象,用概率分布描述语言。 选择一个概率模型,采用统计学、模式识别、机器学习方法,应用大规模真实文本中的例子,训练模型的参数。 功能主义者 理性主义和经验主义 研究方法不同 理性主义 理论:一般根据Chomsky 语言理论,设计语言描述文法。 方法:根据一些语言现象,总结出语言规则,形成语言的规则集。 应用:应用语言规则,分析句子的结构,判断其合法性。 根据句子中词的语义,以及它在句子结构中的作用,推断出句子的语义。 经验主义 理论:基于Shannon 的信息论。语料库语言学(corpus linguistics) 方法:根据给定的语言问题,构造一个概率模型,通过真实数据(语料库),训练模型参数。 应用:运用模型参数,估计语言现象的出现概率。 理性主义和经验主义的融合 统计和规则相结合 NLP的瓶颈 知识获取(Knowledge Acquisition) 知识获取和知识表示相关联 规则:人工知识 参数:适合机器学习 混合方法(Hybrid Approach) 人设计模型 机器训练参数 NLP领域的学术会议 主要国际会议 ACL Association of Computational Linguistics Coling IJCNLP EACL(European Chapter of ACL) ANLP(Applied NLP) SIGIR(SIG Information Retrieval) TREC(Text REtrieval Conference) 人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。 Introduction of Artificial Intelligence 内蒙古大学计算机学院 闫蓉 Mail: csyanr@imu.edu.cn 第七章 自然语言处理概述 基本概念 什么是计算语言学(Computation Linguistics) 用机器处理人类语言的理论和技术。 构造计算模型,用于自然语言的分析、转换、生成。 其他名称: 自然语言处理(Natural Language Processing,NLP) 自然语言理解(Natural Language Understanding,NLU) 人类语言技术(Human Language Technology) 相关名称: 中文信息处理(Chinese Information Processing) 网络信息处理(Web Information Processing) 基本概念 什么是自然语言 自然语言指人类使用的语言,如汉语、英语等。 语言是思维的载体,是人际交流的工具。 语言的两种属性-文字和声音 人类历

文档评论(0)

559997799 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档