信息处理用现代汉语词类标记规范教学讲义.docVIP

  • 3
  • 0
  • 约2.3千字
  • 约 4页
  • 2017-03-09 发布于江苏
  • 举报

信息处理用现代汉语词类标记规范教学讲义.doc

信息处理用现代汉语词类标记规范 1 范围 本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。 适用于汉语信息处理,也可供现代汉语教学与研究参考。 2 术语和定义 下列术语和定义适用于本标准。 2.1 汉语信息处理 Chinese Information Processing,CIP 用计算机对汉语形、音、义等信息进行输入、排序、存储、输出、统计、提取等。 2.2 切分单位 Segment Unit 汉语信息处理使用的、具有确定语法功能的基本单位。它包括本标准的规则所限定的词、短语及其他单位。 2.3 词类 parts of speech,POS 词的语法分类,主要是根据语法功能划分出来的类。 2.4 标记 Tag 对文本中切分单位的类别进行标注的代码。 3 总则 3.1 切分单位的范围 本标准的切分单位包括词、短语和其他切分单位,如习用语、缩略语、前接成分、后接成分、语素字、非语素字、标点符号、非汉字符号等。 3.2 词类划分的原则 本标准根据汉语信息处理的特点和要求,主要依据语法功能原则划分词类。 3.3 标记代码的制定原则 noun”的首字母“n”作为标记代码;“数词”,采用英文术语“numeral”的第三个字母“m”作为标记代码。 汉语独有的,或使用英文术语字母不便的,依据国内通常做法,标记代码采用汉语拼音字母。如,“缩略语”,采用汉字“简”汉语拼音的首字母

文档评论(0)

1亿VIP精品文档

相关文档