[教育资料精选]《信息处理用现代汉语分词规范》.docVIP

[教育资料精选]《信息处理用现代汉语分词规范》.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
国家标准GB/T 13715-92 《信息处理用现代汉语分词规范》 1 主题内容与适用范围 1.1 主题内容 本规范规定了现代汉语的分词原则,以满足信息处理的需要。它对汉语信息处理的规范化,对各种汉语信息处理系统之间的兼容性有重要的作用。 1.2 适用范围 本规范适用于汉语信息处理各领域,其他行业和有关学科可以参考使用。 汉语信息处理各领域可以根据其专门需求,进一步补充和细化本规范的规定。 2 引用标准 GB12200汉语信息处理词汇 3 术语 以下术语引自CB 12200。 3.1 汉语信息处理 用计算机对汉语的音、形、义等信息进行的处理。 3.2 词 最小的能独立运用的语言单位。 3.3 词组 由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言单位。 3.4 分词单位 汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词组。 3.5 汉语分词 从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。 4 概述 本规范以信息处理应用为目的,根据现代汉语的特点及规律,规定现代汉语的分词原则。 本规范用下划线“ ”作为分词单位标记。 4.1 空格或标点符号是计算机中分词单位的分隔标记。作为分隔标记的标点符号有:句号、逗号、顿号、分号、冒号、问号、叹号、引号、括号、破折号、省略号、书名号、间隔号、连接号及符号“/”等。 4.2 二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位。例如: 发展 可爱 红旗 对不起 自行车 青霉素 4.3 四字成语一律为分词单位。例如: 胸有成竹 欣欣向荣 四字词或结合紧密、使用稳定的四字词组,一律为分词单位。例如: 社会主义 春夏秋冬 由此可见 4.4 五字或五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分。例如: 时间 就 是 生命 失败 是 成功 之 母 人 心 齐,泰山 移 结合紧密、使用稳定的词组,分开后如违背原有组合的意义,或影响进一步的处理,则不予切分。例如: 不管三七二十一 4.5 惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位。例如: 妇女能顶半边天 他真小气,像个铁公鸡 4.6 略语一律为分词单位。例如: 科技 奥运会 工农业 4.7 分词单位加形成儿化音的“儿”,一律为分词单位。例如: 花儿 悄悄儿 玩儿 4.8 在现代汉语中出现的非汉字符号,例如其他语言的字符串、数学符号、化学符号、阿拉伯数字等,仍保留原有形式。例如: CAD CO : = 1 247 1 298 576 3.14 4.9 现代汉语中其他语言的汉字音译外来词,不予切分。例如: 巧克力 吉普 4.10 不同的语言环境中的同形异构现象,按照具体语言环境的语义,根据本规范的规定进行切分。例如: 把 手抬起来 这个把手是木制的 5 具体说明 为叙述方便,本规范沿用了把词分为名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、语气词、叹词、象声词等十三类的方法。 5.1 名词 5.11 普通名词 5.1.1.1 二字的名词或结合紧密的二字名词词组,一律为分词单位。例如: 火车 牛肉 钢铁 5.1.1.2 结合紧密,分开后如违背原有组合的意义的名词性词组,一律为分词单位。例如: 有功功率 被子植物 5.1.1.3 由形容词加名词组成的词组,应予切分。例如: 绿 叶 小 床 形容词加名词组成的有转义的词组,一律为分词单位。例如: 小媳妇 戴高帽儿 5.1.1.4 前加成分加名词性分词单位应为分词单位。例如: 阿哥 老鹰 非金属 超声波 5.1.1.5 名词性分词单位加如下类型的后加成分: 家 手 性 员 子 化 长 头 者 应为分词单位。例如: 科学家 拖拉机手 革命性 理发员 椅子 标准化 科长 木头 学者 名词性分词单位后如有多个后加成分,则它们是一个分词单位。例如: 物理学家 5.1.1.6 名词性分词单位前后如有前加成分和后加成分,则它们是一个分词单位。例如: 非党员 超导性 5.1.1.7 各类专业的基本术语为分词单位。例如: 加速度 中央处理器 5.1.1.8 方位词应予单独切分。例如: 桌子上 长江以北 5.1.1.9 除“人们”之外,仅表示前一个名词性分词单位复数的“们”单独切分。例如: 朋友 们 学生 们 但是“哥儿们 爷们儿”等是分词单位。 5.1.1.10 时间名词或词组的分词规则如下: a.一年的十二个月份以及每周的七天,一律为分词单位。例如: 五月 元月 3月 星期日 礼拜三 b.“年、日、时、分、秒”分别为分词单

文档评论(0)

msb + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8134116003000000

1亿VIP精品文档

相关文档