基于单字提示特征的中文命名实体识别快速算法-中文信息学报.PDF

基于单字提示特征的中文命名实体识别快速算法-中文信息学报.PDF

基于单字提示特征的中文命名实体识别快速算法-中文信息学报

第 22 卷  第 1 期 中文信息学报 Vol . 22 , No . 1 2008 年 1 月 J OU RN AL O F C H IN ESE IN FO RMA T ION PROCESSIN G J an . , 2008 文章编号 : (2008) 0 10 10407 基于单字提示特征的中文命名实体识别快速算法 1 , 2 1 1 , 2 1 , 2 冯元勇 , 孙 乐 , 李文波 , 张大鲲 ( 1. 中国科学院 软件研究所 中文信息处理中心 北京 100080 ; 2 . 中国科学院 研究生院 北京 100049) ( ) ( ) 摘  要 : 近年来条件随机场 CRF 模型在 自然语言处理中的应用越来越广泛 。标准的线性链 Linearchain 模型 一般采用 LB F GS 参数估计方法 ,收敛速度慢 。本文在分析模型复杂度的基础上提出了一种改进的快速 CRF 算 法 。该算法通过引入小规模单字特征降低特征的规模 ,并通过在推理过程中引入任务相关的人工知识压缩 Vit erbi 和 BaumWelch 格搜索空间 ,提高了训练的速度 。在中文 863 命名实体识别评测语料和 SI GHAN06 语料集上进行 的实验表明 ,该算法在不影响中文命名实体识别精度的同时 ,有效地降低了模型的训练代价 。 关键词 : 计算机应用 ; 中文信息处理 ; 中文命名实体识别 ; 条件随机场 ; 自然语言处理 ;机器学习 中图分类号 : TP39 1. 1      文献标识码 : A A Rapid Algorithm to Chinese Named Entity Recognition Based on Single Character Hints F EN G Yuanyong1 , 2 ,SUN L e1 ,L I Wenbo 1 , 2 ,ZHAN G Dakun1 , 2 ( 1. Chinese Information Processing Cent er , In stit ut e of Software , Chinese Academy of Sciences , Beij ing 100080 , China ; 2 . Graduat e U niver sit y of Chinese Academy of Sciences , Beij ing 100049 ,China) Abstract : Conditional Random Fields ( CRF) model becomes p revalent for sequential labeling t ask s in t he field of NL P . A general but slow op timization algorit hm LB F GS i s commonly u sed in p aramet er estimation of CRF Mo del . In t hi s p ap er , an imp roved algorit hm i s p ropo sed to t rain CRF mo del more quickly

文档评论(0)

1亿VIP精品文档

相关文档