中文分词十回顾.PDF

下载文档

3
0
约4.58万字
约 15页
2018-08-28 发布于湖北
举报
版权申诉
保障服务

中文分词十回顾.PDF

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第21卷第3期中文信息学报 V01．21，No．3 2007年5月 CHINESEINFORMATIONPROCESSINGMay。2007 JOURNALOF 文章编号：1003—0077(2007)03—0008—012 中文分词十年回顾黄昌宁1，赵海2 (1．微软亚洲研究院，北京100080；2．香港城市大学，香港) ● 摘要：过去的十年间，尤其是2003年国际中文分词评测活动Bakeoff开展以来，中文自动分词技术有了可喜的进步。其主要表现为：(1)通过“分词规范+词表+分词语料库”的方法，使中文词语在真实文本中得到了可计算的定义，这是实现计算机自动分词和可比评测的基础；(2)实践证明，基于手工规则的分词系统在评测中不敌基于统计学习的分词系统；(3)在Bakeoff数据上的评估结果表明，未登录词造成的分词精度失落至少比分词歧义大5倍以上；(4)实验证明，能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法，并使自动分词系统的精度达到了新高。关键词：计算机应用；中文信息处理；中文分词；词语定义；未登录词识别；字标注分词方法中图分类号：TP391 文献标识码：A ChineseWord DecadeReview Segmentation：A HUANG Hai2 Chang-nin91，ZHAO (1．MicrosoftResearch of Asia，Beijing100080，China；2．CityUniversityHongKong，HongKong，China) thelast sincetheFirstInternationalChineseWord Bakeoffwas Abstract：Duringdecade，especially Segmentation heldin 2003，theinautomaticChineseword hasbeen July study segmentationgreatlyimproved．Thoseimprove— mentscouldbesummarizedas the senseChinesewordsinrealtexthavebeenwell—de— following：(1)oncomputation fined resultsshowthat of by“segmentationguidelines+lexicon+segmentedcorpus”；(2)practical performance statistic thatofhandcraftedrule—based evaluationintermsof segmentationsystemsoutperforms systems；(3)the Bakeoffdatashowsthatthe causedout isatleastfivetimes