面向综合语言知识库建设的汉语词义消歧与标注语言模型研究.ppt

面向综合语言知识库建设的汉语词义消歧与标注语言模型研究.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
面向综合语言知识库建设的汉语词义消歧与标注语言模型研究.ppt

面向综合语言知识库建设的 汉语词义消歧与标注语言模型研究 北京大学计算语言学研究所 张仰森 2006-11-28 内容提要 一、 绪 论 二、 国内外研究现状分析 三、 词语义项的表征及其可计算性 四、 基于多知识源的知识提取与融合 五、 面向汉语词义排歧与标注的语言模型 六、 标注语料的一致性保证与正确性评价 七、 面向真实文本的汉语词义标注实验系统的设计与实现 八、 结 束 语 一、国内外研究现状 基于规则的词义消歧方法 基于词典知识的词义消歧方法 有指导的统计词义消歧方法 无指导的统计词义消歧方法 现有研究存在的问题与改进策略 伪词法---可解决训练语料不足的问题 少数几个词---只适于对消歧算法的研究 二、我们的目标、优势及对策 研究的目标与内容 目标:建设高质量的大规模汉语综合语言知识库 内容:汉语语料库建设过程中汉语词义消歧与标注的基本方法和关键技术。 所具有的优势 人员优势:文理交叉; 资源优势:世界上最大的标注语料库,语法信息词典等 二、我们的目标、优势及对策 拟解决的问题 知识源的选择; 基于多知识源的知识提取与融合; 基于知识的词义消歧模型与算法; 模型的评价与一致性检验方法 研究方法与技术路线 开发试验平台用于模型与算法的实验研究; 采用同形标注与义项标注两步走战略; 内容提要 一、 绪 论 二、 国内外研究现状分析 三、 词语义项的表征及其可计算性 四、 基于多知识源的知识提取与融合 五、 面向汉语词义排歧与标注的语言模型 六、 标注语料的一致性保证与正确性评价 七、 面向真实文本的汉语词义标注实验系统的设计与实现 八、 结 束 语 三、词义的表征及其可计算性 题引 意义训释表征方式及其可计算性 义原表征方式及其可计算性 概念依存关系表征方式及其可计算性 由可计算性看表征方式对词义消歧的作用 结论 三、词义的表征及其可计算性—— 3.1 题引 三、词义的表征及其可计算性—— 3.1题引 知识表示是机器学习的关键,如何表征和获取词义消歧知识,是自然语言处理研究的任务之一。 如何在词典中实现词语的多个义项的表征? 传统辞书的释义方式——意义训释 语义原语+描述语言——义原表征 概念依存关系——概念依存关系表征 它们的可计算性如何? 三、词义的表征及其可计算性 题引 意义训释表征方式及其可计算性 义原表征方式及其可计算性 概念依存关系表征方式及其可计算性 由可计算性看表征方式对词义消歧的作用 结论 三、词义的表征及其可计算性—— 3.2意义训释表征方式及其可计算性 3.2.1 表征形式 以自然语言形式定义和解释词语意义 【仪表】① 人的外表 ② 测定温度、气压、电量、血压等的仪器 问题: 自然语言本身的模糊性、歧义性,造成多义词解释的递归性。引发歧义膨胀 3.2.2 可计算性及其应用 在词义消歧中的应用: 20世纪80年代是一种流行知识资源。 词义消歧:Lesk(1986)应用《Oxford Advanced learner’s Dictionary》释义辞典进行词义消歧。 可计算性:比较弱 所采用的方法各个义项的释义部分与其所在上下文词语间的覆盖度,确定它在该上下文中的适当意义。 但释义部分简明时,与上下文的覆盖度为0; 通过同义词扩充增大上下文的窗口,增大覆盖度。但仅应用这种释义词典不好进行同义词的计算。 三、词义的表征及其可计算性 题引 意义训释表征方式及其可计算性 义原表征方式及其可计算性 概念依存关系表征方式及其可计算性 由可计算性看表征方式对词义消歧的作用 结论 3.3.1 表征方式 知网采用义原来表示概念 义原:最基本的、不易于再分割的、意义最小的语义单位。 空间变换:将数量非常大(6万多个概念)的概念空间,映射到维数有限的义原空间。从而使文本内容的计算可实现化。 多义词的表示示例如下: 【仪表】 NO.=096060 W_C=仪表 G_C= E_C= W_E=bearing G_E=N E_

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档