基于统计分类器的新词识别研讨.pdfVIP

  • 3
  • 0
  • 约6.69千字
  • 约 6页
  • 2018-01-07 发布于广东
  • 举报
基于统计分类器的新词识别研究 刘建毅h2 王菁华1 王 枞1 1北京邮电大学智能科学技术研究中心 北京 100876 2北京师范大学中文信息处理研究所 北京 100083 h@nlu.caai.cn liujy@nlu.caai.cnwangj wangc@nlu.caai.cn 摘要:新词识别是汉语自动分词的难题之一。在大规模中文自动分词中,新 词是造成分词错误的一个重要原因。本文将新词的识别问题看成一种分类问题, 在给定的上下文中判断一个字符串是否为新词。本文采用基于五类特征:前字成 词概率、后字成词概率、前字前位成词概率、后字后位成词概率和共现概率的 大学语料库进行测试,取得了较高的准确率和召回率。 关键词:新词识别,支持向量机,决策树 一,引 言 未髓录词识别是中文信息处理中的一个难点,在大规模中文文本的自动分词 中,未登录词是造成分词错误的一个重要原因。未登录词识别技术的突破对提高 汉语自动分词的准确性有很重要的意义,对其他自然语言处理(如信息检索、数据 挖掘等)也有很重要的作用。 朱卺录词是指中文分词处理中末包含在分词词典中的词,它可分成以下几类: 人名:如刘建毅 地名:如北京市 组织

文档评论(0)

1亿VIP精品文档

相关文档