网站大量收购独家精品文档,联系QQ:2885784924

9 消歧需要词例知识黄昌宁.PPT

  1. 1、本文档共39页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
9 消歧需要词例知识黄昌宁

消歧需要词例知识 黄昌宁 微软亚洲研究院 cnhuang@ 提 纲 对NLP的误识 消歧需要词例知识 (1)OAS的侦察和消歧 (2)语块分析 结论 对NLP的误识 有人认为: ●中文信息处理 = 汉语理解 ●句法-语义方法是唯一出路 事实是: ●绝大多数NLP系统建立在语言表层信息的基础上,还谈不上“理解” ●分布在各个层面上的歧义是自然语言的一个本质属性,句法-语义方法在消歧方面的能力尚待证实 句法-语义的神话 三种自动分词方法:形式分词(MM),句法分词,语义分词 (王永成) 句法分词“解决切分歧义的 95%”(何克抗) 句法分析可解决切分歧义(Wu,1998) ●事实证明:句法-语义方法在消解切分歧义方面,效果并不理想(Wu, SIGHAN-2003) ●把自然语言处理看成是一个物理符号处理系统也许更现实一些 CFG规则不能做什么? ? 短语边界歧义: ●[NP 经营/农产品/的/加工/潜力/]很大 [NP 农产品/的/加工/] [VP 经营/ [NP农产品/的/加工/] ] ●重视[NP发挥v/高素质/人才/的/作用/] [NP 高素质/人才/的/作用/] [VP发挥v/ [NP高素质/人才/的/作用/] ] ?切分歧义: ●对路/a 的 渴望 竟 如此 强烈 , [PP 对/p路/n] 的 渴望 “的”字前的NP边界 /精力/充沛/的/吴彬/脑子/里/想/的/全/是/武术/的/事儿/。 ●/充沛/的/吴彬/脑子/里/想/的/全/是/武术/的/ ●/吴彬/脑子/里/想/的/全/是/武术/的/ ●/脑子/里/想/的/全/是/武术/的/ ●/想/的/全/是/武术/的/ ●/全/是/武术/的/ ●/武术/的/ 句法分析调查 一个实用化句法分析器的正确率约73%, 其错误分布 (按句子计算): 分词 词性 组块 中心词 40% 24% 12% 24% NLP底层工作不扎实是MT性能低下的原因 分词歧义调查(933句) 一个基于句法分析器的分词系统 (PBWS) 对交集型歧义字段 (OAS) 的误切: ①决定在全省/戒/玩/风/,/兴学/风/, ●LW: 兴学v,学风n,兴v,风{n, suf} ●构词法 n→v+suf: 抢购~|吃喝~|出国~|兴学~ n→n+suf: 世~|球~|文~|学~|玩~ ●句法 vp→v+n: /戒/玩风/,/兴/学风/, n→v+suf: /戒玩/风/,/兴学/风/, OAS误切示例(续) ②最大限度地防止/[NP 有害/a 信息流/n] [VP 入/v 和/c 传播/v] ③保修条款亦/不详/尽/, ④挽救一/个/人生/命/的义务将凌驾于不侵犯别人隐私的义务。 ⑤改变“一手硬,/一/手软/”的状态,有新闻界的一份功劳。 CAS误切示例 PBWS 对覆盖型歧义字段(CAS) 的误切 ⑥东/中西部/地区要按照优势互补、互惠互利、真诚合作的原则,加强联合。 ⑦过去思想封闭的赞皇人,/对路/的渴望竟如此强烈, ⑧你们这/群山/里的女娃娃有了学本领、闯世界的志气。 ⑨希望你们再/创新/的业绩。 ⑩进书店/跟进/超市买柴米油盐/一/样/, CAS“才能” X ?股票投资者的基本权利/才能/得到保障。 X ?怎样在安装等待过程中设计出活动的画面/才能/让用户不致焦躁。 V ?与之配套的软件/才/能/调试通, X ?切实纠正有偿新闻等不正之风,/才能/更好地为人民服务。 V ?由此入手,/才/能/更深刻地洞察信息时代教育改革发展的趋势与前景。 CAS“才能”和“才/能” “才/能”10个词;PBWS 报出7词,报对4词 召回率=0.40(4/10); 精确率=0.57(4/7) ●不论切分得对不对,句法分析结果似乎都是合理的: ? …,[NP 才能/n] [VP 更好地/d 为人民/pp 服务/v] 。 ? …,[VP 才/d 能/v 更深刻地/d 洞察/v] … “才能”的语料调查 随机抽取含字串“才能” 的1,100个句子 ●“才/能”出现概率:0.94 (1,035/1,100) ●最简模型:见到“才能” 统通切开 ●召回率R=0.97(2,070/2,135) 精确率P=0.94(2,070/2,200) 提 纲 对NLP的误识 消歧需要词例知识 (1)OAS的侦察和消歧 (2)语块分析 结论 为什么需要词例知识? R. A. Hudso

文档评论(0)

youbika + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档