- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
总第164期 2008年 第5期
基于字位信息的中文分词方法研究
张金柱 张 东 王惠临
(中国科学技术信息研究所 北京 100038)
【摘要】分析中文自动分词的现状,介绍和描述几种不同的分词思想和方法,提出一种基于字位的分词方法。此
分词方法以字为最小单位,根据字的概率分布得到组合成词的概率分布,因此在未登录词识别方面比其它方法有
更优秀的表现。使用最大熵的机器学习方法来进行实现并通过两个实验得出实验结果的比较分析。
【关键词】中文分词 字位 最大熵 未登录词识别
【分类号】TP311 TP18
TheResearchofCharacter-Position-BasedChineseWordSegmentation
ZhangJinzhu ZhangDong WangHuilin
(InstituteofScientificandTechnicalInformationofChina,Beijing100038,China)
【Abstract】ThispaperanalysestheactualityandintroducesseveraldifferentrepresentativeapproachesofChineseword
segmentation,thenbringsoutacharacter-position-basedsegmentationmethodwhichtakestheChinesecharacterasthe
leastunit.ItindicatestheprobabilitydistributionofawordthroughtheprobabilitydistributionofChinesecharacter,soit
playsmuchbetterthanotherapproachesinunknownwordrecognition.Thisideatakesamachine-learningmethodcalled
maximumentropyforimplementationandtwoexperimentsforcomparingandanalyzingtheresults.
【Keywords】Chinesewordsegmentation Character-position Maximumentropy Unknownwordrecognition
汉语自动分词是中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键,它在机器翻译、信
[1]
息检索、文本分类等中文信息处理的各项任务中都发挥着基础性的重要作用 。“词”的定义未确定、分词和理
[2]
解、孰先孰后、歧义切分字段处理以及未登录词识别等仍是中文自动分词的热点和难点问题 ,这些问题的解决
是自动分词前进和发展的关键。
当前,已有许多分词方法被应用到中文切分中,这些分词方法可分为3大类:基于字符串匹配的分词方法、基
[3]
于理解的分词方法和基于统计的分词方法 。基于字位信息的中文分词方法较当前一些分词方法有其特定的优势:
(1)更好地处理未登录词识别问题,同时兼顾歧义处理;
(2)对于不同的分词标准,只要有与此标准匹配的语料库,便能得到相应标准的切分结果;
(3)对于不同的应用,如机器翻译与全文检索,只要调整语料库的分词颗粒度,也可得到相应的切分结果。
1 基于字位分词方法的提出
中文词不像英文单词那样有空格分隔符,因而中文分词的关键就在于在句子合适的地方加上词语的分隔
符[4],从而得到词语的序列。如果假想有这样一种语言:把所有词语的边界位置都用某些符号的有限集来表示,
用这个符号集的某一子集来表示词语的开始,用另一个子集表示词语的结束,而且这两个子集互相独立。这样,
收稿日期:2007-12-28
收修改稿日期:2008-01-21
本文系中国科学技术信息研究所学科建设项目“语言技术与知识技术”(项目编号:2007DP01-8)和国家科技支撑计划课题“多语言信
息服务环境关键技术研究与
文档评论(0)