现代汉语词义标注语料库的研究与开发.pptVIP

现代汉语词义标注语料库的研究与开发.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代汉语词义标注语料库的研究与开发,现代汉语语料库,bcc现代汉语语料库,现代汉语口语语料库,北大现代汉语语料库,北语现代汉语语料库,现代汉语平衡语料库,现代汉语语料库词频表,国家现代汉语语料库

现代汉语词义标注语料库 的研究与开发 吴云芳 北京大学计算语言学研究所 2005-08-15 报告提纲 目标 总体思路 辅助软件 成果展示 难点分析 目标 建成2-3个具有国际先进水平(或规模最大)的数据资源库并制定相应的规范或标准。 —— 973项目“数字内容理解的理论与方法”预期目标之一 我们的目标:建设成为规模最大、质量上乘的具有国际先进水平的现代汉语词义标注语料库。 具体运用意义:是词义自动消歧(WSD)的数据基础,进而提升信息检索、机器翻译等系统的应用水平。是现代汉语词汇语义研究的资源库。 总体思路—— 粗粒度到细粒度的两步走策略 1. 粗粒度标注—— 基于《现代汉语语法信息词典》中的“同形”信息 填补《现代汉语语法信息词典》和语料库的缝隙 2. 细粒度标注—— 在“同形”基础上进行更适应于语言信息处理的义项区分 现代汉语语义词典(含6万实词) —— 《现代汉语语法信息词典》的扩充,面向机器翻译。 动词库部分信息样例(增加了“义项”等字段) 总体思路—— 语义词典和词义标注语料的互动构建 总体思路—— 语义词典和词义标注语料的互动构建 总体思路—— 词义标注语料的滚雪球似增长 词义标注校对辅助软件 体现了总体思路, 提高了工作效率。 成果汇总 在《人民日报》基本标注语料的基础上: 1. 完成了 270 万语料的同形标注; 2. 完成了 46 个动词的义项区分, 并标注 8639 义项; 3. 完成了 150 个名词的义项区分, 并标注 6000 多义项; 4. 正在进行形容词义项区分和标注。 难点分析 难点分析——示例 【电话】 ① 利用电流使两地的人互相交谈的装置 (《现汉》) ② 用电话装置传递的话 a. 24/m 小时/n 值班/v 守/v 电话/n ①?②? b. 公布/v 3/m 部/q 征求/v 意见/n 电话/n ①?②? 难点分析——示例 关于词语意义的一点认识:内容和载体是一个事物不可 分割的两方面意义,存在着句法结构混合运用的情形,即可能存在着意义和结构搭配错位的情形。 扩展法消歧: a. 24小时值班守电话 —— 结果电话丢了。 (? ?) ——结果一个电话也没人打来。 ② ! b. 公布3部征求意见电话 —— 欢迎随时安装。(**) —— 欢迎随时拨打。 ② ! 难点之解决 系列文章: 信息处理用词语义项区分的原则和方法 信息处理用动词义项的区分 信息处理用名词义项的区分 信息处理用形容词义项的区分 信息处理用虚词义项的区分 请您批评,谢谢! * * 1 2 2 2 配价 动物 人 人 人 主体 与事 器皿 材料 固饮 客体 rinse (a plate) 冲盘子 促变 3 A v 冲 charge 冲锋 位移 B v 冲 develop (a film) 冲胶卷 促变 2 A v 冲 make (tea) 冲茶 创造 1 A v 冲 英译 释义 语义类 义项 同形 词类 词语 语义词典 词义标注语料库 词语多义区分 词义自动消歧 1.词语义项的区分 一个词可以分割为几个义项? 2.真实文本中词语义项的确定 在一定上下文中这个词语表示什么意义? 语义词典 词义标注语料 词义标注 义项区分 面向大规模真实文本的 词语义项标注规范 一方面依据《语义词典》中的义项信息对语料中的多义词进行词义标注,一方面依据词语在语料中的句法表现(syntactic behavior)对词典中的义项区分作出调整,词典和语料形成一个互动良性的发展。 基本标注语料 (词语切分、 词性标注) 人工词义标注 小规模 词义标注语料库 机器学习 词义自动消歧 人工校对 大规模 词义标注语料库 成果展示——词义标注语料库 从/p 科学/a 的/u 苍穹/n 上{shang5}/f!B$ ,/wd 采/v 来/v!4-4 日辉/n 、/w 月华/n 、/w 星/n 芒/Ng ,/wd 每天/r 为{wei4}/p!B1$ 我/r 的/u 祖国/n ,/wd 深情/d 献/v 一/m 掬/q 科技/n 之/u 光/n 。/wj ”/w 这/

文档评论(0)

tianma2015 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档