- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于统计分类器的新词识别研究
刘建毅h2 王菁华1 王 枞1
1北京邮电大学智能科学技术研究中心 北京 100876
2北京师范大学中文信息处理研究所 北京 100083
h@nlu.caai.cn
liujy@nlu.caai.cnwangj wangc@nlu.caai.cn
摘要:新词识别是汉语自动分词的难题之一。在大规模中文自动分词中,新
词是造成分词错误的一个重要原因。本文将新词的识别问题看成一种分类问题,
在给定的上下文中判断一个字符串是否为新词。本文采用基于五类特征:前字成
词概率、后字成词概率、前字前位成词概率、后字后位成词概率和共现概率的
大学语料库进行测试,取得了较高的准确率和召回率。
关键词:新词识别,支持向量机,决策树
一,引 言
未髓录词识别是中文信息处理中的一个难点,在大规模中文文本的自动分词
中,未登录词是造成分词错误的一个重要原因。未登录词识别技术的突破对提高
汉语自动分词的准确性有很重要的意义,对其他自然语言处理(如信息检索、数据
挖掘等)也有很重要的作用。
朱卺录词是指中文分词处理中末包含在分词词典中的词,它可分成以下几类:
人名:如刘建毅
地名:如北京市
组织机构名:如北京邮电大学
简称:如北邮
专业术语:如域名
新产生的词汇:如三个代表
前三类的未登录词一般被称为专有名词,专有名词的识别已经有了许多研究
成果,通常是针对某一种专名建立语料库,根据语料库中各姓氏、人名、地名、
机构名用字的概率,在未登录词出现的句子中再以动态规划的方法求出可能最佳
的那一类专名。而对于后三类未登录词,本文称之为新词。新词的识别问题较专
有名词的识别要困难一些,目前大部分的未登录词研究集中在专有名词的识别。
新词识别之所以具有挑战性,是因为:(1)新词频繁出现。根据商务出版社词
典研究中心统计,每年涌现约1000个中文新词。这些词大多是特定领域、行业的
技术术语(如“蓝牙”)和时间敏感的政治、社会、文化术语(如“保先”,“保钓”)①。
(2)新词出现的范围非常广泛,难以运用规则进行约束。
新词识别有两种方法:离线方法和在线方法。离线方法一般是针对大规模语
料库,先由机器自动生成一张候选词表,然后由人丁选出其中的新词添加到分词
词典中,这种方法受时间和语料规模的限制,只能部分解决新词的识别问题。在
线新阋识别方法则是在分词过程中,采用几个语言学特征实时发现句中的新词。
本文主要研究在线新词识别方法,将新词的识别问题看成一种分类问题,在给定
的上下文中判断一个字符串是否为新词。
本文的结构如下:第二部分介绍一些相关工作;第三部分详细介绍基于统计
的新词识别方法;第四部分是实验结果;最后是结论。
一,相关工作
未臀录词的识别一般有以下三种方法:
(1)基于规则和知识库的方法。首先收集大量的某类未登录词,建立用词表,
如《中国地名库》、《中文姓名资料库》等,然后根据识别规则分别对其进行判断。
这种方法的查全牢和查准率非常高,但也存在一些缺陷:识别效果的好坏极大地
依赖于所利用的资源是否全面、科学,如果所用的资源比较少,覆盖面较小,将
会严重影响识别的效果。此外,这种方法可识别的词的类型仪限于具有统计特征
的几类词,而对于大量的普通词汇和新词汇却没有作用。
(2)基于统计的方法。该方法对语料库中的相邻的各个字的组合的频度进行统
计,计算它们的互信息,互信息体现了汉字之间结合的紧密程度。然后在对输入
文本进行分词的基础上,寻找可能构成中文新词的字符串,计算其组合概率,并
应用一定的筛选公式来识别。但这种方法也有一些局限性:对常用词的识别精度
差,时空开销大。
(3)基于统计与规则相结合的方法。统计方法和规则方法互有优缺点,两种方
法结合起来可以互为补充。在结合方式上,一般是先采用统计方法粗选出候选新
词,然后利用一系列规则进行过滤。
① 秦浩伟,步丰林:《一个中文新词识别特征的研究》,载《计算机工程》,第30卷,2004
目前新词识别的研究工作主要采用语言学特征进行启发式新词识别,如:文
献①提出单个汉字的成词率,即IWP特征:假设如果两个相邻汉字的IWP值之积
大于预先设定的阈值,那么它们构成一个新词。文献②则使用另外一个特征:似然
度,它表示在给定一个词及其词性和长度的情况下,一个汉字在该词中特定位置
出现的概率。本文则利用了五类语
您可能关注的文档
最近下载
- 课件:第五章 自由主义社会福利思想(《现代社会福利思想》课程).pdf VIP
- 第二课 美的本质和特征课件 --中职技校《美育》第四版.pptx VIP
- 二 1~6的表内除法(单元教学设计)苏教版 二年级上册数学2025版.pdf
- 2025春新人教版九年级化学下册《第九单元 溶液》大单元整体教学设计[2022课标].docx
- 美育——美即生活-1.1美的起源和发展-教案.doc VIP
- 教科版科学五年级上册 第一单元《光》大单元教学设计.pdf VIP
- 2025年最新交通局辅警招聘考试题库(附答案).docx VIP
- 全国地图-县级.pptx VIP
- 《规划与自然资源语料库建设导则》.docx VIP
- 幕墙工程幕墙施工专项方案.pdf VIP
文档评论(0)