网站大量收购闲置独家精品文档,联系QQ:2885784924

中文指代消解方法研究讲义.ppt

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文指代消解方法研究讲义

中文指代消解方法研究 姓名: 郎 君 指导老师:秦 兵 答辩时间:2004年6月29日 Outline 研究背景及意义 国内外研究现状 论文研究方法及内容 名词短语识别及特征向量选定 基于决策树的中文指代消解 结合规则的决策树中文指代消解 结论 下一步工作 研究背景及意义 指代消解基本概念 MUC 信息抽取 自动文摘 国内外研究现状 CR基本原理:构造候选-筛选+优选 理论模型:Hobbs算法、中心理论 目前主要方法 基于规则:句法知识,RAP,Mitkov,王厚峰HNC 机器学习:McCarthy,Cardie,MBL,boostrapping 决策树:Resolve95,Soon99,01,Xiaofeng Yang03,04 语料库的加工与标注 指代消解的评估指标 论文研究方法及内容 在PFR上试验方法的可行性 加入底层NLP技术实现系统 改进系统 Outline 研究背景及意义 国内外研究现状 论文研究方法及内容 名词短语识别及特征向量选定 基于决策树的中文指代消解 结合规则的决策树中文指代消解 结论 下一步工作 名词短语识别 指代消解采用MUC定义 名词短语之间的指代消解 名词短语识别的必要性 名词短语识别(NP分组) 名词短语识别(识别步骤) 第一步:识别出基本名词成分。各种名词成分分为六组,如上页所示。 第二步:同组短语局部最大化,亦即如果两个相邻的标出的短语的组别相同,那么就将二者合并为一个短语。 第三步:并列名词性短语合并。如果出现在“和”、“与”或“、”两侧的短语组别相同,则将两侧短语连带“和”、“与”或“、”一起合并为一个短语(这里排除代词组的情况)。 名词短语识别(识别结果) 01-001-001/m}Q {迈向/v}Q {充满/v}Q {希望/n}G {的/u}Q {新/a}Q {世纪/n}G {--/w}Q {一九九八年/t 新年/t}T {讲话/n}G {(/w}Q {附/v}Q {图片/n}G {1/m}Q {张/q}Q {)/w}Q 01-001-002/m}Q {中共中央/nt}O {总书记/n 、/w 国家/n 主席/n}G {江/nr 泽民/nr}H 特征向量选定 参考国内外相关研究选定16个特征 Outline 研究背景及意义 国内外研究现状 论文研究方法及内容 名词短语识别及特征向量选定 基于决策树的中文指代消解 结合规则的决策树中文指代消解 结论 下一步工作 基于决策树的中文指代消解 决策树学习概况:ID3、C4.5、C5.0 实验数据准备情况 C5.0生成的决策树 实验测试结果 自由文本指代消解系统实现 加入底层NLP技术 断句、分词、词性标注、命名实体识别 特征向量自动构建 性别 、单复数 指代消解主控模块思想 系统运行结果示例 系统运行结果示例 Outline 研究背景及意义 国内外研究现状 论文研究方法及内容 名词短语识别及特征向量选定 基于决策树的中文指代消解 结合规则的决策树中文指代消解 结论 下一步工作 结合规则的决策树中文指代消解 两种方法:增大指代样例库、加入规则 加入七条规则 七条规则 代词的指代消解仍然存在全匹配的问题 保留“这/这些”、“那/那个那些”、“哪/哪些/哪个” 的指代消解研究-增大精确率 人名NE-“他”或“她” 机构名NE、地名NE、专名NE-“它” 保留“我”或“我们” -增大精确率 排除第三人称代词间的指代情形 排除时间短语与第三人称代词间的指代情形 加入规则后的系统运行结果示例 加入规则后的系统运行结果示例 运行示例分析 加入的代词全匹配的规则1是有效的。文中大量的“我”与“她”的指代问题都得到了解决 如“[妈妈]12会讲[故事]13,[她]12给[她]12的学生讲,给[我]8的同学讲,讲动人的过去和神奇的未来,讲做好孩子的哲理,晚上[我]8听着[故事]13入睡。” “儿子降生后的繁忙中,[妈妈]27忘不了、离不开[她]27的[园子]34,和[妻子]32一起把原来堆满废土的小院子换上生机嫣然的绿色,告诉[我]31这样才和[梅花村]33幽雅的环境相配。” 运行示例分析(续) 规则2强调的“那/那些”等指代情形除了在规则1下执行了全匹配外,没有和其他的代词出现指代关系。但是“这/这些/这个”、“那/那些/那个”等情形在具体的上下文环境中指代的情形比较复杂,简单的采用全匹配规则不太符合实际的指代情形。 运行示例分析(续) 以上七条规则以外的情形都提供给决策树的if-then规则进行指代消解,排除代词的指代消解后可以很好的执行指代消解,如文中将多次出现的“妈妈”和其下文出现的“她”的指代关系识别正确。 如“[我]31给[妈妈]27捎去这里随处可见的花园和

文档评论(0)

yaoyaoba + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档