汉语分词标注评测大纲.DOCVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2004年度命名实体识别评测大纲 一、评测对象 本次评测的对象是现代汉语(包含大陆的简体文本和港澳台地区的繁体文本)的命名实体(包含命名实体、时间表达式及数量表达式)识别系统中的核心技术。 二、评测内容 本次评测主要是对识别的正确率进行评测。 1.命名实体识别评测 本次测试命名实体、时间词、数字词的识别。具体词类的判断规则参考附录中的说明。 (1) 命名实体(ENAMEX) 命名实体是文本中的固有名称、缩写及其他唯一标识。子类包括组织名(ORGANIZATION),人名(PERSON),地名(LOCATION)。例如:“世卫组织”、“张三丰”、“淮海路甲一号”。 (2) 时间表达式(TIMEX) 时间表达式为文本中的相对或绝对时间短语。子类包括日期(DATE)和时间(TIME)。例如:“1993年3月”、“早晨5点30分”。 (3) 数值表达式(NUMEX) 本次评测中的数值表达式特指文本中出现的用于表示数值的数字短语。例如:“300”、“30%”、“五倍”。 2.评测语料的选材原则 本次评测将选择近期流通广泛的图书、报纸、期刊和网络等载体作为语料的来源,以期反映当代汉语的最新面貌,涉及到的主题有政治、经济、体育、交通、旅游、教育等。语料的选择考虑到其平衡性、科学性和代表性。 三、评测方法 1.评测方式 本次评测为现场评测。采用自动评测与人工辅助相结合的方式进行。 2.评测步骤: (1) 预先提供测试样例 (2) 在评测单位统一提供的评测环境上安装被测系统 (3) 评测单位给出测试数据 (4) 运行被测系统,得出测试结果 (5) 评测单位运行自动测试程序,统计出评测结果 (6) 评测单位事后对自动评测结果进行分析和核对,对其中难以进行自动评测的内容进行人工分析确定,并公布评测结果 3. 评测指标 分别对简体和繁体文本的识别进行打分。每种文本又分别对命名实体、组织名、地名、人名、时间表达式、数值表达式进行打分。 评测采用三个指标:正确率、召回率、F值。各指标定义如下: (1) 正确率 表示识别出的词语中出现在标准结果中的词语比例,计算公式如下: (2) 召回率 表示标准结果中被正确识别出的词语比例,计算公式如下: (3) F1值 是正确率和召回率的调和平均数,计算公式如下: 4.输入输出文件格式 被测系统读入一个脚本文件,脚本文件含若干行,每行由三个部分组成,分别为繁体简体(S/T)、输入文件名、输出文件名。举例如下: S source\a1.txt result\r_a1.txt T source\b1.txt result\r_b1.txt 输入文件为一组简体及繁体的标准的纯文本文件,编码方式为Unicode。 输出文件为标准的文本格式,编码方式为Unicode。内容是在原文的基础上对识别出的词语进行标注。识别出的词语标记方法如下。 利用以下标记括起识别出的命名实体、时间表达式、数值表达式: 大类 TYPE=”子类”字符串/大类 其中,大类名为ENAMEX、TIMEX、NUMEX之一。 ENAMEX的子类包括ORGANIZATION、PERSON和LOCATION。TIMEX的子类包括DATE和TIME。NUMEX没有子类。 以下是输出文件的样例: ENAMEX TYPE=”PERSON”格林/ENAMEX最近的状态非常不错,TIMEX TYPE=”DATE”两周前/TIMEX便曾在ENAMEX TYPE=”LOCATION”洛杉矶/ENAMEX跑出过NUMEX9/NUMEX秒NUMEX86/NUMEX的好成绩,这NUMEX一/NUMEX次,借助每秒NUMEX3.7/NUMEX米的风速,他追平了ENAMEX TYPE=”PERSON”蒙哥马利/ENAMEXTIMEX TYPE=”DATE”2002年9月/TIMEX在ENAMEX TYPE=”LOCATION”巴黎/ENAMEX创造的男子NUMEX百/NUMEX米世界纪录。 四、评测环境 本次评测环境包括:操作系统为Windows2000,硬件配置不低于:P4 1GHz,256M内存,40G IDE硬盘。 附录 命名实体识别规范 1 命名实体识别任务 命名实体任务由三个子任务组成(命名实体、时间表达式、数字表达式)。被标注的表达式为命名实体(组织、人、地点)、时间(日期、时间)及数量。 1.1 所有类型通用的规则 (1)带有省略成分的多个实体 多个实体连写,有共用成分的时候标记为一个实体,例如“ENAMEX TYPE=”LOCATION”南北美/ENAMEX”、“NUMEX20到30倍/NUMEX”、“TIMEX TYPE=”TIME”凌晨三四点钟/TIMEX”、“NUMEX二十七八/NUMEX岁”、“NUMEX1~2成/NUMEX”、“TIMEX T

文档评论(0)

jinzhuang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档