信息处理用现代汉语词类标记规范.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息处理用现代汉语词类标记规范 1 范围 本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。 适用于汉语信息处理,也可供现代汉语教学与研究参考。 2 术语和定义 下列术语和定义适用于本标准。 2.1 汉语信息处理 Chinese Information Processing,CIP 用计算机对汉语形、音、义等信息进行输入、排序、存储、输出、统计、提取等。 2.2 切分单位 Segment Unit 汉语信息处理使用的、具有确定语法功能的基本单位。它包括本标准的规则所限定的词、短语及其他单位。 2.3 词类 parts of speech,POS 词的语法分类,主要是根据语法功能划分出来的类。 2.4 标记 Tag 对文本中切分单位的类别进行标注的代码。 3 总则 3.1 切分单位的范围 本标准的切分单位包括词、短语和其他切分单位,如习用语、缩略语、前接成分、后接成分、语素字、非语素字、标点符号、非汉字符号等。 3.2 词类划分的原则 本标准根据汉语信息处理的特点和要求,主要依据语法功能原则划分词类。 3.3 标记代码的制定原则 noun”的首字母“n”作为标记代码;“数词”,采用英文术语“numeral”的第三个字母“m”作为标记代码。 汉语独有的,或使用英文术语字母不便的,依据国内通常做法,标记代码采用汉语拼音字母。如,“缩略语”,采用汉字“简”汉语拼音的首字母“j”作为标记代码;“语素字”,采用汉字“根”汉语拼音的首字母“g”作为标记代码。 4 词类及其他切分单位分类 本标准将词类划分为13个一级类,16个二级类;其他切分单位划分为7个一级类,13个二级类。用户可根据需要自行增补。 4.1 词类划分及标记代码 4.1.1 名词(n),表示人或事物的名称,在句子中主要充当主语和宾语。 4.1.1.1 普通名词(ng),表示事物的名称。如: 道德 理论 历史 思想 文化 因素 作风 哲学 4.1.1.2 时间名词(nt),包括一般所说的时量词。如: 现在 过去 昨天 去年 将来 宋朝 星期一 4.1.1.3 方位名词(nd),表示位置的相对方向。如: 前边 左面 里头 中间 外部 4.1.1.4 处所名词(nl),表示处所。如: 4.1.1.5 人名(nh),表示人的名称的专有名词。 4.1.1.6 地名(ns),表示地理区域名称的专有名词。如: 中国 北京 浙江 景德镇 呼和浩特 中关村 4.1.1.7 族名(nn),表示民族或部落名称的专有名词。如: 4.1.1.8 机构名(ni),表示团体、组织、机构名称的专有名词。如: 4.1.1.9 其他专有名词(nz)。如: 4.1.2 动词(v),表示动作、行为,心理活动、生理状态及事物的存现、变化等,在句子中主要充当谓语。4.1.2.1 及物动词(vt),能够带宾语。如: 喜欢 告诉 接受 羡慕 考虑 调查 同意 发动 4.1.2.2 不及物动词(vi),不能够带宾语。如: 4.1.2.3 联系动词(vl),表示关系的判断。如: 4.1.2.4 能愿动词(vu),表示可能、意愿。如: 4.1.2.5 趋向动词(vd),表示趋向。如: (跑)上来 (掉)下去 (提)起来 (扔)过去 4.1.3 形容词(a),表示性质、状态,在句中主要充当谓语、定语、状语和补语。4.1.3.1 性质形容词(aq),表示性质。如: 4.1.3.2 状态形容词(as),表示状态。如: 4.1.4 区别词(f),表示事物的区别性特征,在句子中只能做定语修饰名词或跟助词“的”组成“的”字结构。如: 4.1.5 数词(m),表示数目和次序。如: 第一 第十八 4.1.6 量词(q),表示人、事物或动作的单位。如: 4.1.7 代词(r),起替代和复指作用。如: 这个 那个 大家 自己 什么 哪里 怎么 怎么样 4.1.8 副词(d),修饰或限制动词和形容词,表示范围、程度等。在句子中做状语。如: 总共 正在 常常 重新 曾经 竟然 居然 4.1.9 介词(p),引介名词性成分,不单独充当句子成分。如: 按照 对于 为了 自从 关于 4.1.10 连词(c),连接词、短语或句子,表示两者之间所具有的某种关系。如: 并且 而且 或者 因为 所以 4.1.11 助词(u),附着在词、短语、句子后面表示某种附加意义。如: 4.1.12 叹词(e),表示感叹、呼唤或应答,可独立成句或在句中充当独立成分。如: 4.1.13 拟声词(o),模拟自然界事物的某种声音,不能单独成句。如: 4.2 其他切分单位划分及标记代码4.2.1 习用语(i),一种相沿习用的定型短语。4.2.

文档评论(0)

185****7617 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档