现代汉语词典》系列数据库.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代汉语词典》系列数据库.ppt

《现代汉语词典》 系列数据库 中国社会科学院语言研究所 2006 概述 来源: 根据《现代汉语词典》的系列辞书建立的数据库; 用途: 电子辞书的查询和发布; 辞书编纂和修订的参考资料; 从聚合的角度研究汉语词汇的资料; 用比较的方法研究辞书的资料; 《现代汉语词典》系列数据库 一、数据库主要内容 二、数据的一致性 三、数据库的主要应用功能 四、关于缺字问题 一、数据库主要内容 词典的版本信息 词条信息 偏旁部首 检字表 其他 一、数据库主要内容 词典的版本信息(以第三版为例)包括: 书号 书名 版次 作者 出版单位 出版时间 发行单位 印刷单位 印次 印数 开本 字数 印张 定价 防伪 前言 说明 总目 音节表 检字表 凡例 附录等。 词条信息包括: 词目 异体/繁体字 拼音 释义 特征。 一、数据库主要内容 偏旁部首:偏旁部首、偏旁部首笔画。 检字表:归属于某偏旁部首的汉字、除去偏旁部首笔画外的汉字笔画。 其他:词条中其他一些可供查询、统计的语法、语义、语用、构词等特征。 二、数据库与辞书数据的一致性 数据的原始排列顺序与辞书数据保持一致 数据内容和辞书数据保持一致 数据库主体结构保持一致 各版本《现代汉语词典》辞书之间同种标记不同标法的数据在库中也要保持一致(主要表现在各种计算机字库中没有的标记、符号、序号等)。 三、数据库的主要应用功能 经过对词典内容的结构化处理,数据库里有以下几类信息可以用于检索、统计、分析和比较: 1、词目部分:字、词、语素、字数、偏旁部首、偏旁部首笔画、除去偏旁部首笔画外的汉字笔画、繁体字、异体字、可插入特征、结构词特征、重叠词特征、儿化等。 2、语音部分:原拼音、转写拼音、同音、轻声、第二音节无辅音特征、重读、结构词发音等。 三、数据库的主要应用功能 3、语用部分:学科分类(语、经、地质、地、等)。语用信息(书、方、古、文、口、京、简等)。 4、词类部分:12个词类。 5、释义部分:释义中所包含的字、词、短语、句子 等字符串。 6、其他部分:多音、近义词、从属条目、外来语、专有名词、义项数等。 7、版本信息:凡例中的信息、偏旁部首、检字表、版次、时间、作者、前言、说明等。 三、数据库的主要应用功能   1、查词释疑 2、模糊查询   3、类别查询 4、比较查询   5、统计查询 6、逆序查询   7、版本信息 四、关于缺字问题   在WINDOWS XP操作环境中,使用GBK宋体字库,以《现代汉语词典》第三版为例,缺字共计695个汉字(不包括各种符号)。我们对这些缺字逐个作了字形分析,决定用字形描述的办法来说明这些字。 四、关于缺字问题 1、缺字的分析   695个缺字中,有399个汉字在计算机字库中没有对应的简体字、繁体字或异体字,我们称其为绝对缺字。另外296个缺字在计算机字库中可以找到各自对应的简体字、繁体字或异体字,我们称其为相对缺字。   对这些缺字都要进行缺字描述。 四、关于缺字问题 2、缺字的描述 缺字描述公式=X[字型描述:结构描述] X=词典数据库中的缺字标记。 字型描述=组成该字的若干个拆分的部首或字形。 :=字形描述与结构描述的分隔符号 结构描述=该字由若干个拆分的部首或字形所组成的方式。 四、关于缺字问题 2、缺字的描述 A、绝对缺字的描述 结构描述:左右、上下、外里、左中右、上中下、左上下、上下右、上外里等 字形描述:直接对应结构顺序进行字形排列 举例:X[是鸟:左右];tí    X[彳亢亍:左中右];háng    X[思:上下];sī    X[九田:上下];lā 四、关于缺字问题 2、缺字的描述 B、相对缺字的描述 用修改汉字结构中部分部首或字形的办法来描述 举例:X[鰶:魚改鱼];jì    X[顣:頁改页];cù    X[譆:訁改讠];xī 四、关于缺字问题 3、计算机缺字分类统计: A、绝对缺字399个:  左右结构汉字有246个;左中右结构汉字有1个;左上下结构汉字有5个;外里结构汉字有16个;外里右结构汉字有1个;外里下结构汉字有1个;上下结构汉字有63个;上左中右结构汉字有1个;上下右结构汉字有2个;上外里结构汉字有1个;结构和修改结合及结构和短语描述结合的结构描述的汉字有7个;采用修改缺字结构中拆分部分的偏旁部首或字型来描述的汉字有55个; 四、关于缺字问题 3、计算机缺字分类统计: B、相对缺字296个:  通过简写偏旁部首进行缺字描述的有142个;通过简写非偏旁部首部分进行缺字描述的有142个;通过繁写非偏旁部首部分进行缺字描述的有2个;即要简写偏旁部首部分又要简写非偏旁部首部分的有10个; 四、关于缺字问题 3、计算机缺字分类统计: C、几个因字体变化而产生

文档评论(0)

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档