- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分词系统计量研究与改进方案
曲维光
(南京师范大学文学院.南京,210097)
cn
E·mail:wgqu@njnu.edu
京大学免费发布的“人民日报》1998年1月标注语料进行比对分析,找出ICTCLAS系统存在的
一些缺陷,提出进一步提高标注效果的方法。
关键词:分词;语料校对;语料库;语料标注
引言
分词与词性标注是中文自然语言处理的基础性工作,后续深层次的研究,如自动句法分析、
词语搭配的自动获取等工作,都直接依赖于这些工作,分词与词性标注质量的好坏,直接影响
到后续研究的质量高低。随着语言研究中经验主义方法大行其道以及语料库语言学的迅猛发展,
人们在语言研究中对标注语料的规模和质量提出了更高的要求。目前我们正在进行大规模词语
级标注语料的开发工作,有必要从工程的角度来分析研究现有标注系统存在的问题.提出自己
的解决方案,以便进一步提高语料标注的质量。
以往的语言标注系统往往通过建立新的语言模型.对生语料重新进行分词和词性标注。经
过20余年的发展,目前分词和词性标注的技术已基本成熟,准确率一般都可达到95%。在这种
情况下,再想通过改进语言模型来提高准确率往往非常困难,常常是新模型在某些方面有所提
高,而在另外一些方面有所下降。这里希望通过对现有先进分词与词性标注系统输出的结果进
行分析,找出其存在的问题并在此基础上加以解决,进一步提高标注水平,使其达到高水平、
实用化的目的。随着中文自然语言处理开放平台[1]的付诸使用,我们可以充分消化吸收国内外
高水平的标注系统的精华,以期在高起点上改进性能,避免低水平重复劳动,这也是建立中文
自然语言处理平台的初衷。
本文对中科院计算所免费发布的词语标注软件ICTCLAS系统。以及北京大学、人民日报社
和富士通公司免费发布的《人民日报》1998年1月分词和词性标注语料[2】进行介绍。利用
比分析.找出目前ICTCLAS存在的问题,提出解决这些问题的方案,以便在高水平上进一步提
高分词水平。由于标注语料是词性级标注,并且带有词性的分词语料更有利于对分词问题的分
析。这里仍使用带词性的语料作为例子。
1.北大标注语料与计算所l
CTCLAS中文词语分析一体化系统
北京大学计算语言研究所、人民日报社和富士通公司免费发布的《人民日报》1998年1月
带词性标注的语料库,约有372万字,112万词语。该语料利用软件对《人民日报》1998年1
月的文本进行标注后,通过语言jI:作者的严格校对,标注语料的质量在我国堪称最高。该语料
的免费发布,对于我国语料库语言学、计算语言学的普及和发展起到了巨大的推动作用。
我国对分词与词性标注的研究已经有20多年的历史。围绕着基于规则的理性主义方法和基
于统计的经验主义方法,提出过许多卓有成效的理论与方法[3]。经过20余年的发展,分词与词
性标注的处理已经达到较高水平。中科院计算技术研究所张华平、刘群研制的ICTCLAS中文词
语分析一体化系统是我国目前最先进的分词与词性标注软件之一,在2003年SIGHAN分词测
评中,它参加了几乎所有的测试.都取得了较好的成绩,并有多项测试成绩排名第--[4]。该系
统采用隐马尔科夫模型.建立切分词图。词语粗分阶段,先得出N个概率最大的切分结果。然
后利用角色标注方法识别未登录词。并计算其概率,将未登录词加入到切分词图中,之后视其
为普通词处理。最终进行动态规划,优选出N个最大概率切分标注结果。利用N.最短路径方法
进行词语粗分.可以较好地解决词语切分问题。同时将未登录词与歧义问题保留到下一个过程。
基于角色标注的未登录词识别方法,可以克服候选词语选取的盲目性,并能计算出候选词的概
率。基于隐马尔科夫的一体化方法能够将未登录词、歧义消除与普通词的处理统一起来进行,
最终得到满意的识别效果。该系统作为开放软件,已经将完备的文档连同源代码上传到中文自
然语言处理开放平台上,免费供大家研究与使用。
为了能够深入、全面地对上述情况进行全面的考察,我们利用中科院计算所的ICTCLAS
软件免费版对《人民日报》1998年1月的文本进行标注,并以《人民日报》1998年1月的带词
性标注的语料库作为模板语料(认为该语料没有错误),与计算所标注结果进行比对和统计分析。
原创力文档


文档评论(0)