基于条件随机场的中文命名实体识别分析-identification and analysis of chinese named entities based on conditional random fields.docxVIP

  • 14
  • 0
  • 约4.88万字
  • 约 65页
  • 2018-05-20 发布于上海
  • 举报

基于条件随机场的中文命名实体识别分析-identification and analysis of chinese named entities based on conditional random fields.docx

基于条件随机场的中文命名实体识别分析-identification and analysis of chinese named entities based on conditional random fields

摘要命名实体识别是自然语言处理领域的重要研究方向,是信息抽取、信息检索、信息过滤、问答系统、机器翻译等多种自然语言处理技术的重要基础。由于中文自身的特殊性和复杂性,中文命名实体识别技术的研究要落后于英文很多。为了促进相关自然语言处理技术的发展,研究中文命名实体识别技术具有重要的理论和现实意义。本文主要研究基于条件随机场的以人名、地名、组织名为核心的中文命名实体识别相关技术。中文由于自身的特点,其内部隐藏着大量的可供命名实体识别使用的语义信息,本文首先通过比较语料中特定命名实体上下文中词汇的频度挖掘命名实体指示词,接着深度挖掘命名实体内部结构信息,然后再通过Wiki扩展挖掘到的语义信息以建立外部语义知识库。在此基础上,本文将传统的词特征、词性特征、标记特征以及挖掘到的语义特征作为条件随机场模型的上下文特征进行命名实体识别,并通过实验验证了这些特征的有效性。最后本文设计了一种层次式的中文命名实体识别系统,通过实验表明,对于中文命名实体的识别达到了一定的精度,在1998年1月份《人民日报》语料上进行测试,对于人名、地名、组织名的识别的F值分别达到了93.97%、91.49%、84.67%。此外,对于大规模数据集,采用单机进行命名实体识别耗时较长,本文提出了一种基于HadoopMap/Reduce的并行化识别策略,实验取得了良好的效果,在我们的集群测试中,识别速度比单机提高了大约14倍。关

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档