中文分词歧义消除初探.docVIP

  • 21
  • 0
  • 约8.01千字
  • 约 8页
  • 2017-04-04 发布于重庆
  • 举报
中文分词歧义消除初探

中文分词交集型歧义消除初探 摘要:歧义消除是中文分词中的难点,也是关键。本文探讨了中文分词的现状,并对交集型歧义的采集和消除方法作了介绍,旨在提高消除歧义的效率。本文通过文献阅读和实验调查等方法探讨消除歧义的有效方法,提出了将双字耦合度和t-测试差两种方法结合起来。最后实验证明,将双字耦合度和t-测试差结合起来的方法是一种消除歧义行之有效的方法。 关键词:中文分词; 歧义消除; 交集型歧义 中图分类号:TP391.1 A Preliminary Study on Chinese Word Segmentation Ambiguity Elimination Abstract: Ambiguity elimination is the difficulty in Chinese word segmentation, and it is also the key problem. This paper discussed the present situation of Chinese word segmentation, and the acquisition and elimination methods of intersection ambiguity are introduced in order to improve the efficiency of ambiguity resolution. In this paper, an effective method to eliminate ambiguity is discussed by means of literature reading and experimental investigation. It is proposed to Coupling Degree of Double Character and Difference of T-test. Finally, it is proved that the method of combining the CDDC and Difference of T-test is an effective method to eliminate ambiguity. Key words: Chinese word segmentation; Ambiguity elimination; Intersection ambiguity 1 引言 中文分词是文本分类、信息检索、信息过滤等中文信息处理系统的基础,也是关键技术。没有中文分词,任何更加深入的中文信息处理都无从谈起。但是中文文本不同于英文文本,英文文本词与词之间有空格相隔,存在明显的界限,而中文文本中词是字的组合,词与词之间并没有明显的界限。由于中文文本的这种性质以及现有技术的制约,中文分词达不到百分百的准确,存在切分错误,也就是切分歧义。识别并消除切分歧义,能够提高中文分词的精度。 2 中文分词简介 2.1 中文分词概念 中文分词就是将一段由字组成的文本切分成由词组成的文本的过程。例如,句子“我是一个学生”,切分后的结果是“我/是/一个/学生”。中文分词主要存在两个难点,一是歧义识别,也就是一个字串有两种以上不同的切分结果,例如“国家规定”,可以切分成“国家/规定”和“国/家规/定”,但是第二种切分结果在语义上并没有意义,我们如何识别歧义,并消除歧义,这是中文分词中的一个难点。中文分词的第二个难点是对未登录词的处理。未登录词就是没有在词典中出现过的词。词典是词的集合,我们可以通过将一个字串在词典中匹配,以判断该字串是否是一个词。未登录词包括实体名词和专有名词,例如人名、地名和机构名,也包括专业术语和新词语。 2.2 中文分词研究现状 从上世纪80年代开始,语言学界和计算机界的诸多学者对中文分词进行了研究,并出现了大量的研究成果。早期进行中文分词研究的是北京航空航天大学的梁南元和刘源教授,接下来有上海交通大学王永成教授和东北工学院的姚天顺教授。目前研究中文分词技术的主体是科研院校,如清华大学、北京大学、中国科学院和微软中国研究院,此外,研究中文分词的商业公司有海量科技。典型的中文分词系统有如下几个。 北京航空航天大学的CDWS系统是我国第一个实用的中文分词系统,首次论证了自动中文分词的可行性,初步建立了一个描述书面汉语的计算模型,对自动分词的有关概念和术语给出了明确的定义,首次对歧义切分字段进行了分类。清华大学先后研制开发了SEG、SEGTAG分词系统。整个系统首次提出了全微分的概念,即找出输入字串的所有可能的字串,分词结果取其中的最佳字串序列。复旦大学的分词系统对中文姓氏的自动辨识达到了70%的准确率,对地名和一些领域专有词汇也能进行一定的

文档评论(0)

1亿VIP精品文档

相关文档