中文电子病历分词规范.PDFVIP

  • 470
  • 0
  • 约7.94千字
  • 约 13页
  • 2017-06-09 发布于江苏
  • 举报
中文电子病历分词规范

中文电子病历分词规范 (草案) 《中文电子病历分词规范》是根据以下资料提出的: 1. 《信息处理用现代汉语分词规范》,中国国家标准GB/T 13715-92 2. 《973 当代汉语文本语料库分词、词性标注加工规范》(草案) 山西大学计算机科学系 山西大学计算机应用研究所 3. 《The Segmentation Guidelines for the Penn Chinese Treebank》(3.0) University of Pennsylvania, 2000 一、分词总则 本规范中的“分词单位”主要是词,也包括了一些结合紧密、使用稳定的词组以及在某些 特殊情况下可能出现在切分序列中的孤立的语素或非语素字。 针对中文电子病历中可能出现的分词歧义,本规范结合词性进行消解,其中分词单位之间 采用空格分隔,词与词性之间采用“#”分隔,词性符号的意义见第二章。分词细则包括特殊词 性分词规范、组合词性分词规范及通用分词规范,各类规范的使用优先级如下表所示。 优先级 规范 适用范围 1 特殊词性分词规范 第三章中枚举

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档