基于语料库的数字化辞书编纂平台靳光瑾.ppt

基于语料库的数字化辞书编纂平台靳光瑾.ppt

  1. 1、本文档共59页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于语料库的数字化辞书编纂平台靳光瑾

基于语料库的数字化辞书编纂平台 靳光瑾 教育部语言文字应用研究所 guangjin_2000@ 2004-07-13 目标: 以大规模通用汉语语料库为基础,以数字化典范辞书为资源,利用语言信息处理计算机技术等,研制辞书的知识获取、自动生成、检查检测、审核评价等技术和集成化的辅助操作平台,突破传统的辞书编纂概念,建立一种新型的辞书编纂模式。 请看系统演示 资源平台 资源平台是实现数字化辞书编纂的核心,主要包括: 大规模语料库 生语料库(印刷、电子、网络) 标注语料库(切分标注、句法标注、语义标注) 分类语料库(领域、时段、用途) 辞书数据库 典范辞典(已完成10部词典的嵌入) 领域辞典 其他辞典 语言文字规范标准 语言处理技术 语言处理技术是数字化辞书编纂平台的支撑点。 经过20年的研究,语言处理技术虽然仍未整体突破,但是依靠现有的研究成果,根据特定的应用需求,在限定的应用领域内,语言处理技术可以满足应用需要。 平台使用到的语言处理技术主要包括: 词语切分和词类标注 语法检查 检索(全文检索、关联检索) 信息抽取 文本分类 自动聚类 机器翻译 自动文摘 …… 辞书生成 数字化辞书生成系统 数字化辞书生成是利用现有辞书资源和大规模语料库资源,根据不同的用户对象、领域、辞书规模等信息,按照用户可定义的辞书模板,重组生成新的辞书框架,并在此基础上通过语料库更新原有的定义和例证,为编纂人员提供新辞书的基本内容。 界面样例 辞书生成 数字化辞书生成系统的主要内容: (1)辞书的形式化: 通过通用XML模板将辞书形式化 建立不同概念间的一致性 辞书体例的归一化 (2)辞书概念关联网络: 辞书概念形式化 概念关系:同义、同形、反义、近义、类义、对义、上下位、从属、相关、双关、联想等。 辞书概念关联检索 (3)概念重组和更新: 重组概念 重新定义概念的释义 更新概念的释义和例证 辞书雷同检查 雷同检查 辞书的雷同检查是以经典辞书(或指定辞书)为基础,检查其他辞书与其在词表、概念释义、例证等上的相似程度,高度相似则视为雷同。辞书的雷同检查技术可作为辞书市场“打假”的有效工具。 雷同检查需要通过语法语义上的相等、同义、近义等判别来支持。 辞书冲突检测 冲突检测 辞书的冲突检测是对多辞书进行概念定义、释义方面的语义比较,不同辞书同一概念间存在矛盾则视为冲突。辞书冲突检查将为提高辞书质量提供有效帮助。 辞书雷同检查和冲突检测 辞书雷同检查和冲突检测技术的主要内容有: 辞书概念关联 概念形式的归一化 建立不同辞书概念间的联系 形式和内容的相似性比较 近义、同义、反义判断 辞书检查还包括编辑错误检查、排版错误检查、体例格式检查等等。 规范性检查 辞书规范性检查 以国家已经发布的语言文字标准为基础,检查辞书中是否存在与规范标准不一致或有冲突的内容。 规范性检查试图提高辞书的整体质量水平 例如: 根据《汉语拼音方案》检查辞书的注音是否符合要求 根据《异形词整理表》检查辞书有关词形的规范情况 已发布国家语言文字规范标准 示例 语料库与辞书编纂 建立语料库已经是当代编纂原创性词典的必要条件; 20世纪70年代建设的COBUILD语料库,采用词语索引技术对海量语料进行大规模调查,从此开创了现代词典编纂的先河。 在COBUILD词典中,每个词条不但有频率信息,而且义项的取舍和排列顺序,都以大型语料库的实际统计结果为依据,而且每个例句都采自语料库中的实际使用的语言事实。 本课题以国家语委语料库为基础,同时吸收国内外语料库建设成果。 国家语委语料库 现代汉语通用平衡语料库 8800万字语料 5000万字标注语料库(词语切分词类标注) 句法树库 国家语委语料库的管理由国家语委授权语言文字应用研究所负责 国家语委语料库建设 ?1991年12月国家语委语言文字应用管理司提出立项建议 1992年4月国家语委语言文字应用管理司在京组织召开了现代汉语语料库选材原则专家论证会 1993年1月制订《现代汉语语料库选材原则》 1993年9月召开了现代汉语语料库选材专家审定会 2001年底建成 7000万字的生语料库 2003年底已完成4500万字语料的词语切分和词性标注加工 现代汉语语料库的主要用途及选材规模 主要用途 语言文字的信息处理 语言文字规范和标准的制定 语言文字的学术研究 语文教育 语言文字的社会应用 选材规模 规模较大的通用语料库,其选材字数拟定在5000万字左右,包括抽样材料和整篇材料。教材字数另计。 选材的分类 依据材料内容,选材大体作如下分类: 教材 大中小学教材单作一类,约2000万字。不计入5000万字的语料之内。 人文与社会科学的语言材料,包括: 政法(含哲学、政治、宗教、法律等); 历史(含民族等) 社会(含社会学

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档