- 3
- 0
- 约2.3千字
- 约 4页
- 2017-03-09 发布于江苏
- 举报
信息处理用现代汉语词类标记规范
1 范围
本标准规定了信息处理中现代汉语词类及其他切分单位的标记代码。
适用于汉语信息处理,也可供现代汉语教学与研究参考。
2 术语和定义
下列术语和定义适用于本标准。
2.1 汉语信息处理 Chinese Information Processing,CIP
用计算机对汉语形、音、义等信息进行输入、排序、存储、输出、统计、提取等。
2.2 切分单位 Segment Unit
汉语信息处理使用的、具有确定语法功能的基本单位。它包括本标准的规则所限定的词、短语及其他单位。
2.3 词类 parts of speech,POS
词的语法分类,主要是根据语法功能划分出来的类。
2.4 标记 Tag
对文本中切分单位的类别进行标注的代码。
3 总则
3.1 切分单位的范围
本标准的切分单位包括词、短语和其他切分单位,如习用语、缩略语、前接成分、后接成分、语素字、非语素字、标点符号、非汉字符号等。
3.2 词类划分的原则
本标准根据汉语信息处理的特点和要求,主要依据语法功能原则划分词类。
3.3 标记代码的制定原则
noun”的首字母“n”作为标记代码;“数词”,采用英文术语“numeral”的第三个字母“m”作为标记代码。
汉语独有的,或使用英文术语字母不便的,依据国内通常做法,标记代码采用汉语拼音字母。如,“缩略语”,采用汉字“简”汉语拼音的首字母
您可能关注的文档
- 中国家庭史教学讲义.doc
- 社会与历史学院2009—2010学年第二学期期末考试安排教学讲义.doc
- 天津大学化工学院参考教材教学讲义.doc
- 语言学习教学讲义.doc
- 区域构造教学讲义.doc
- 现在管理学考试内容详细教学讲义.doc
- 停车场管理教学讲义.doc
- 中国近代史专题检测教学讲义.doc
- 西南大学T类、A类刊物及论文遴选办法(试行)教学讲义.doc
- 文化生活测试题教学讲义.doc
- 锂电池制造风光储综合开发及工商业储能示范建设项目可行性研究报告模板-拿地立项申报.doc
- 2026届广东中山市高三下学期一模地理试题(解析版).docx
- 福建厦门市2025-2026学年高三下学期4月高中毕业班模拟测试地理试题.docx
- 2026届广东中山市高三下学期一模地理试题(原卷版).docx
- 2026年北京市丰台区高三下学期一模政治试题和答案.docx
- 1_专题十 名词性从句(1).pptx
- DB41_T+3030-2025+贵州石楠栽培技术规程.pdf
- DB61T 2094.7-2025 天麻生产技术规范 第7部分:病虫害防治.pdf
- DB11_T+1106-2025+建筑自保温墙体工程施工及验收规程.pdf
- DB15_T+3940-2025+公路桥梁后张法预应力孔道压浆技术规程.pdf
最近下载
- 2025年红塔集团笔试行测试卷.doc VIP
- (高清版)DB13∕T 1659-2012 美国白蛾防治技术规范.pdf VIP
- 历年大学专升本考试护理专业真题(附答案).docx VIP
- 4动中通移动卫星通信站系统设计方案..doc VIP
- 红塔集团笔试考试模拟试题.doc VIP
- 清洁生产 教学课件 作者 曲向荣清洁生产概述第2章.PPT VIP
- (高清版)DB35∕T 1906-2020 高渗透改性环氧树脂防水防腐涂料通用技术条件.pdf VIP
- 黑热病考试题及答案.doc VIP
- 2025年经济师考试旅游经济高级经济实务试卷与参考答案.docx VIP
- T∕BCAT0001-2021北京市安装工程标识标准.docx
原创力文档

文档评论(0)