- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种规则与统计相结合的汉语分词方法1
赵伟,戴新宇,尹存燕,陈家骏
(南京大学计算机科学与技术系 南京大学软件新技术国家重点实验室,210093)
汉语自动分词是中文信息处理领域的一项基础性课题,本文对现有的汉语分词方法
摘要:
作了简单的概述和分析,然后提出了一种新的分词方法,该方法基于一个标注好了的语料库,
并且结合了规则和语料库统计两种分词方法。
关键词:中文信息处理 分词 语料库 交集型歧义
中图分类号:TP391
A Method Combining Rule-Based and Statistics-Based
Approaches for Chinese Word Segmentation
Zhao Wei, Dai Xinyu, Yin Cunyan, Chen Jiajun
(Department of Computer Science and technology, Nanjing University
State Key Laboratory for Novel Software Technology, Nanjing University, 210093)
Abstract: Chinese automatic word segmentation is a basic task in the area of
Chinese NLP. After summarizing and analyzing current techniques used in Chinese
word segmentation, this paper presents a new method for word segmentation which is
based on a marked corpus base. The method combines rule-based and corpus-based
statistical methods.
Keywords: Chinese NLP, Word segmentation, Corpus, Crossing Ambiguities
1. 序言
汉语自动分词是中文信息处理领域的一项基础性课题,也是智能化中文信息处理的关键
所在,因为在中文信息处理中,凡是涉及句法、语义等的研究(如机器翻译,自然语言处理
等)都要以词为基本单位。汉语不同于西文,在一个汉语句子中,词与词之间没有明显的分
隔符(如空格)。汉语的词法约束很不规范,而且千变万化,就给汉语分词带来了很大的麻
烦。正是由于汉语分词的困难及其在中文信息自动处理中的重要地位,自 70 年代末以来,
许多人投入到了汉语自动分词的研究工作中来,也出现了好多具有应用前景的分词方法。目
前,许多分词方法已经得到实现,并且投入到了实际应用系统中。
本文首先对现有的一些汉语分词方法进行阐述与分析,然后提出一种规则与统计相结合
的分词方法,该方法建立在一个标注好了的语料库的基础之上,可以很好地解决交集型歧义。
1 该课题得到 863 项目资助,项目编号:2001AA114102
2. 汉语自动分词的问题
汉语分词是汉语分析以及计算机处理汉语的一大难点,导致汉语分词精度不高的原因一
般有:词语(抑或说汉语分析基本单位)的界定、词典范围、分词中因为算法问题产生的歧
义。这里主要讨论关于歧义的消解。
分词过程中歧义产生的根源可归结为以下三类:
(1)由自然语言的二义性所引起的歧义,称为第一类歧义。如:“乒乓球拍卖完了”可
切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。这两种切分形式无论在语
法上还是语义上都是正确的,就是人工分词也会产生歧义,只有结合上下文才能给出正确的
切分。
(2 )由机器自动分词产生的特有歧义,称为第二类歧义。如:“在这种环境下工作是太
可怕了”用机器切分,可以切分为“在/这种/环境/下工/作/是/太/可怕/ 了”,也可以切分为“在
/这种/环境/下/工作/是/太/可怕/ 了”。对本句来说,只有第二种切分是正确的,用人工分词是
不可能产生歧义的,歧义是由于机器机械切分产生的。
(3 )由于分词词典的大小而引起的歧义,称为第三种歧义。如:“王小二是一个
您可能关注的文档
最近下载
- 贵州省巩固拓展脱贫攻坚成果专项学生资助申请表.docx VIP
- 信息系统自行软件开发管理规定.docx
- 湖北省武汉市洪山区2024-2025学年八年级上学期期中质量检测数学试题(图片版,含答案).doc VIP
- 2025至2030全球及中国腓骨肌萎缩症ⅠA型药物行业项目调研及市场前景预测评估报告.docx
- 2025年供电所职工考试题库及答案.docx VIP
- 电网考试供电局简答题.pdf VIP
- 附件2.贵州省巩固拓展脱贫攻坚成果专项学生资助申请表(本科).docx VIP
- 基于Matlab的变压器励磁涌流仿真分析.doc VIP
- SH╱T 3526-2015 石油化工异种钢焊接规范.pdf VIP
- 《现代中式家居设计》课件.ppt VIP
文档评论(0)