最新自然语言处理Natural Language Processing(NLP).ppt

最新自然语言处理Natural Language Processing(NLP).ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
最新自然语言处理Natural Language Processing(NLP).ppt

通过查询谓词s(1,5)的真假来识别句子“John ate the cat”: ?- s(1,5) 标准PROLOG的处理策略与深度优先的自顶向下分析方法一致。 传统CFG在描述自然语言时存在的问题 1. S - NP VP 4. VP - V 2. NP - ART N 5. VP - V NP 3. NP - ART ADJ N 上面的CFG描述了英语的一个子集,同时,它又会生成一些不合法的英语句子,如: The student solve the problem.(主谓不一致) The teacher disappeared the problem.(不及物动词) 一种可能的解决方案 --增加句法符号和规则 把NP分为NP-S和NP-P;把VP分成VP-S和VP-P: S-NP-S VP-S S-NP-P VP-P 把N分成N-S和N-P: NP-S-ART N-S NP-S-ART ADJ N-S NP-P-ART N-P NP-P-ART ADJ N-P 把V分成V-S-I、V-S-T、V-P-I和V-P-T: VP-S-V-S-I VP-S-V-S-T NP-S VP-S-V-S-T NP-P VP-P-V-P-I VP-P-V-P-T NP-S VP-P-V-P-T NP-P 增加句法符号和规则带来的问题 增加了规则的数量和潜在的冗余 类似的规则缺乏关联性 对语言结构描述缺乏深度(表层) 基于特征的扩展CFG 不增加原CFG中的句法符号 给每个句法符号增加特征(属性),例如: NP(PER 3,NUM s) //第三人称单数 VP(PER 3,NUM p) //第三人称复数 特征由特征名和特征值构成。一系列特征构成了一个特征结构(复杂特征集)。 特征值可以是普通值(原子),也可以是另一个特征结构,例如: NP(AGR(PER 3, NUM s)),可简写为: NP(AGR 3s) 一个特征的特征值可以有多个,表示成: N(ROOT fish, AGR {3s,3p}) 特征值也可以是变量,表示取值可以任意,例如: NP(AGR ?a) 表示NP的AGR特征值可取任意值 可以对变量形式的特征值限定范围(受限变量),例如: NP(AGR ?a{3s,3p}) 同名的变量表示它们的值要相同,例如: S-NP(AGR ?a) VP(AGR ?a) 表示NP与VP的AGR特征值要一致(取同样的值,主谓一致) 一个规则如果包含特征值为变量的成分,则该规则代表了一组规则(规则模板)。例如,上述规则代表: S-NP(AGR 3s) VP(AGR 3s) S-NP(AGR 3p) VP(AGR 3p) ...... 基于规则的歧义字段消歧方法 利用歧义字串、前驱字串和后继字串的句法、语义和语用信息: 句法信息 “阵风”:根据前面是否有数词来消歧。“一/阵/风/吹/过/来”、“今天/有/阵风” 语义信息 “了解”:“他/学会/了/解/数学/难题”(“难题”一般是“解”而不是“了解”,另外,还有“学会”) 语用信息 “拍卖”:“乒乓球拍卖完了”,要根据场景(上下文)来确定 规则的粒度 基于具体的词(个性规则) 基于词类、词义(共性规则) Proj. 2 实现一个基于词典与规则的汉语自动分词系统。 (词典:/MT_Lecture/dic_ce.rar) 句法分析(Parsing) 确定句子的组成(短语、短语或者词之间的关系)。 句法分析任务的类型 组块分析(浅层句法分析、部分句法分析): 基本短语(非递归的核心成分)识别 组成分分析(结构分析,完全句法分析) 短语如何构成句子 依存分析 词之间的依赖关系 John ate the cat的组成分分析 S NP VP NAME John V NP ate ART N the cat John ate the cat的依存分析 John ate the cat sub obj mod 句法分析--组成分分析 句法分析的目的 判断句子的合法性(句子识别) 确定句子的结构(句子中单词相互关联的方式) 基于上下文无关语法(CFG)的表示 CFG能描述大部分的自然语言结构 可以构造高效的基于CFG的句法分析器 通常采用树形结构来表示句法分析的结果 优秀语法的特征 通用性 能正确分析的句子的范围 选择性 能判断出错误句子的范围 可理解性 自身的简易程度 *鲁棒性 对不合法句子的容忍度(通用性):He love her. 通用性与选择性矛盾的处置,如:忽略主谓一致性检查将导致无法区分下面句子的不同含义(歧义) Flying planes are dangerous. Flying planes is dangerous. 一个简单的

文档评论(0)

liuxiaoyu98 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档