基于单字提示特征中文命名实体识别快速算法.docVIP

  • 14
  • 0
  • 约3.61千字
  • 约 9页
  • 2018-08-29 发布于福建
  • 举报

基于单字提示特征中文命名实体识别快速算法.doc

基于单字提示特征中文命名实体识别快速算法

基于单字提示特征中文命名实体识别快速算法   摘要:近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRP算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。   关键词:计算机应用;中文信息处理;中文命名实体识别;条件随机场;自然语言处理;机器学习   中图分类号:TP391.1   文献标识码:A      1 引言      命名实体识别是确定文档中的人名、地名和机构名等名词短语的过程。它是信息抽取、问答系统、机器翻译、文档摘要、跨语言检索等自然语言处理应用的关键技术之一。与其他语言相比,中文缺乏词间分隔与大小写等语法特征,其他语言中常用的表层局部环境信息往往不足以完成中文命名实体识别的任务。因而中文命名实体识别更为困难。   在早期基于规则的中文命名实体识别系统中,特征融合自由,各种方面的信息以规则的形式引入。众所周知,规则系统的缺点是工程量大,移植困难,

文档评论(0)

1亿VIP精品文档

相关文档