基于统计分类器的新词识别研讨.pdfVIP

下载本文档

3
0
约6.69千字
约 6页
2018-01-07 发布于广东
举报

基于统计分类器的新词识别研讨.pdf

基于统计分类器的新词识别研究刘建毅h2 王菁华1 王枞1 1北京邮电大学智能科学技术研究中心北京 100876 2北京师范大学中文信息处理研究所北京 100083 h@nlu．caai．cn liujy@nlu．caai．cnwangj wangc@nlu．caai．cn 摘要：新词识别是汉语自动分词的难题之一。在大规模中文自动分词中，新词是造成分词错误的一个重要原因。本文将新词的识别问题看成一种分类问题，在给定的上下文中判断一个字符串是否为新词。本文采用基于五类特征：前字成词概率、后字成词概率、前字前位成词概率、后字后位成词概率和共现概率的大学语料库进行测试，取得了较高的准确率和召回率。关键词：新词识别，支持向量机，决策树一，引言未髓录词识别是中文信息处理中的一个难点，在大规模中文文本的自动分词中，未登录词是造成分词错误的一个重要原因。未登录词识别技术的突破对提高汉语自动分词的准确性有很重要的意义，对其他自然语言处理(如信息检索、数据挖掘等)也有很重要的作用。朱卺录词是指中文分词处理中末包含在分词词典中的词，它可分成以下几类：人名：如刘建毅地名：如北京市组织

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于统计分类器的新词识别研讨.pdfVIP

基于统计分类器的新词识别研讨.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档