- 3
- 0
- 约6.69千字
- 约 6页
- 2018-01-07 发布于广东
- 举报
基于统计分类器的新词识别研究
刘建毅h2 王菁华1 王 枞1
1北京邮电大学智能科学技术研究中心 北京 100876
2北京师范大学中文信息处理研究所 北京 100083
h@nlu.caai.cn
liujy@nlu.caai.cnwangj wangc@nlu.caai.cn
摘要:新词识别是汉语自动分词的难题之一。在大规模中文自动分词中,新
词是造成分词错误的一个重要原因。本文将新词的识别问题看成一种分类问题,
在给定的上下文中判断一个字符串是否为新词。本文采用基于五类特征:前字成
词概率、后字成词概率、前字前位成词概率、后字后位成词概率和共现概率的
大学语料库进行测试,取得了较高的准确率和召回率。
关键词:新词识别,支持向量机,决策树
一,引 言
未髓录词识别是中文信息处理中的一个难点,在大规模中文文本的自动分词
中,未登录词是造成分词错误的一个重要原因。未登录词识别技术的突破对提高
汉语自动分词的准确性有很重要的意义,对其他自然语言处理(如信息检索、数据
挖掘等)也有很重要的作用。
朱卺录词是指中文分词处理中末包含在分词词典中的词,它可分成以下几类:
人名:如刘建毅
地名:如北京市
组织
原创力文档

文档评论(0)