- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
自然语言理解LP
自然语言理解 李鹏 内容大纲 一、概述 二、形式语法 三、概率语法 一、概述 自然语言指人类使用的语言,如汉语、英语等。 自然语言处理(natural language processing, NLP)或称自然语言理解(natural language understanding, NLU),就是以计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。 一、概述 “自然语言处理可以定义为研究在人与人交际中,以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。” B. Manaris, Natural language processing in the view of man-machine interchange, in Advances in Computer, Volume 47, 1999. NLP vs NLU NLP:对自然语言所进行的任何有意义的操作。 NLU:为了理解自然语言而进行的各种操作。 NLP 是实现NLU的手段,NLU是进行NLP的目的。 1.1 自然语言理解研究的内容 机器翻译(Machine translation, MT) 信息检索(Information retrieval, IR) 自动文摘(Automatic abstracting) 文档分类(Document categorization) 问答系统(Question-answering system) 信息过滤(Information filtering) 语言教学(Language teaching)等 1.1 自然语言理解研究的内容 建立一种语言结构到另一种结构的映射 字符串到隐状态序列名字实体抽取,词性标签等问题 一种字符串到另一种字符串机器翻译 字符串到解析树语言解析 字符串到关系型数据库信息抽取 1.2 自然语言的发展历史 早在计算机出现以前,英国数学家A. M.Turing(图灵)就预见到未来的计算机将会对自然语言研究提出新的问题。他在1950 年发表的《机器能思维吗》一文中指出:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后,教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。” Turing提出,检验计算机智能高低的最好办法是让计算机来讲英语和理解英语。他天才地预见到计算机和自然语言将会结下不解之缘。 1.2 自然语言的发展历史 从20 世纪40 年代到50 年代末,这个时期是自然语言处理的萌芽期。 A. M. Turing 算法计算模型的研究 N. Chomsky 关于形式语言理论的研究 C. E. Shannon 概率和信息论模型的研究 自然语言处理萌芽期的这些出色的基础性研究,为自然语言处理的理论和技术奠定了坚实的基础。 1.2 自然语言的发展历史 20 世纪60 年代中期到80 年代末期是自然语言处理的发展期。主要表现在: 机器翻译的发展 统计方法在语音识别算法的研制中取得成功 逻辑方法在自然语言处理中取得了很好的成绩 1.2 自然语言的发展历史 从20 世纪90 年代开始,自然语言处理进入了繁荣期。这个新纪元的重要标志是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法。 什么是语料库 语料库,英文为Corpus 存储语言材料的仓库 现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本 关于语料库的三点基本认识 语料库中存放的是在语言的实际使用中真实出现过的语言材料; 语料库是以电子计算机为载体承载语言知识的基础资源; 真实语料需要经过加工(分析和处理),才能成为有用的资源; 语料库示例 北京大学计算语言所富士通人民日报标注语料库样例: 历史/n 将/d 铭记/v 这个/r 坐标/n :/w 北纬/b 41.1/m 度/q 、/w 东经/b 114.3/m 度/q ;/w 人们/n 将/d 铭记/v 这/r 一/m 时刻/n :/w 1998年/t 1月/t 10日/t 11时/t 50分/t 。/w …… [中国/ns 政府
文档评论(0)