基于角色标注的中文机构名识别(
俞鸿魁1,2 张华平1 刘群1,3
1 中国科学院计算技术研究所软件研究室 北京 100080
2 北京化工大学信息科学与技术学院 北京 100029
3 北京大学信息学院计算机系计算语言所 北京 100871
E-mail:yhk@public3.bta.net.cn
摘要:中文机构名自动识别是命名实体识别的重点和难点,目前各种解决方案的实际效果还难以满足人们的实际需求。本文提出了一种基于角色标注的中文机构名自动识别方法,其基本思想是:根据在机构名识别中的作用,采取Viterbi算法对切分结果进行角色标注,在角色序列的基础上,进行字符串识别,最终实现中文机构名的识别。识别过程中我们只需要某个词作为特点角色的概率以及角色之间的转移概率。该方法的实用性还在于:这些角色信息完全可以从真实语料库中自动抽取得到。通过对大规模真实语料库的封闭测试中,该方法取得了接近90%的召回率和准确率,即使在开放测试中,准确率也高达88%。不同实验从各个角色表明:基于角色标注的机构名识别算法是行之有效的。
关键词:中文机构名识别;未登录词识别;角色标注;Viterbi算法
Recognition of Chinese Organization Name Based on Role Tagging
YU Hong-Kui1,2 ZHANG Hua
原创力文档

文档评论(0)