2国家分词规范分析 - 苏州大学纵横汉字信息技术研究所.doc

2国家分词规范分析 - 苏州大学纵横汉字信息技术研究所.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
2国家分词规范分析 - 苏州大学纵横汉字信息技术研究所

试析中文分词国家规范 许顺 吕强 (苏州大学计算机科学与技术学院,江苏省计算机信息处理技术重点实验室,江苏 苏州 215006) 摘要:中文自动分词是计算机中文信息处理的基础难题,而分词标准又是中文自动分词的首要问题。中文分词规范提出了切分单位的概念,定义了中文信息处理的一系列分词规则。而目前的分词研究对分词规范的作用重视不够。本文首先强调了分词规范应该成为分词问题本身的标准描述。然后本文详细分析了中文分词国家分词规范的完备性和一致性,论述了相应的不够完善的地方。最后总结了应用国家分词规范的重要意义,提出分词规范还需要进一步研究。 关键词:中文分词规范 , 中文自动分词 , 完备性 , 一致性 中图法分类号:TP391 Towards Chinese Word Segmentation Specification Xu Shun Lv Qiang (School of Computer Science and Technology, Suzhou University) ( Jiangsu Key Laboratory of Information Processing Technology) Suzhou, 215006, China Abstract: Chinese automatic segmentation is a fundamental hard problem in Chinese information processing (CIP). And segmentation standard is the principal problem in Chinese automatic segmentation. Chinese word segmentation specification has proposed the definition of segmentation unit and some rules for Chinese segmentation, while the current research has a little bit underestimated the importance of this specification. Firstly this paper emphasizes that the segmentation specification should be the only answer of the question what is the segmentation problem. Secondly this paper analyzes the completeness and consistency of the National Chinese Language Word Segmentation Specification for Information Processing, and points out the related flaw. Finally the authors summarize the importance of application of the segmentation specification, and strongly propose that the research on the segmentation specification should be investigated furthermore. Keywords: Chinese segmentation specification, automatic segmentation, completeness, consistency 1问题的提出 随着计算机技术日新月异的发展,中文信息处理的应用更加广泛,例如语音识别,信息检索,文本分类,自然语言的理解和机器翻译等。 而所有这些中文处理功能都要建立在对中文文本的分词处理这一基本功能之上。因而,分词是信息处理中的一项基础工程。解决汉语分词问题,意义重大,但困难重重,所以“分词问题成为当前中文信息处理的瓶颈” []。在分词的诸多问题中,最重要的问题是:分词的标准是什么?要让计算机做自动分词,首先必须要有一个分词词表,而制定这样一个词表需要有一个分词规范。要制定分词规范,就需要有判断词与非词的准。同时,对计算机分词结果的评价,也需要有一个判断的标准。863/973分词的评测,以及目前的Sighan的评测,都以人工的分词结果作为评测的标准,那么这个人工结果是否基于一个一致科学的标准?所以在汉语分词问题中,首先必须就汉语的分词标准取得共识[6]。GB13715)》(下文简称国家规范)[1],《北京大学现代

文档评论(0)

wujianz + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档