基于Perl的汉语自动分词算法研究.PDF

基于Perl的汉语自动分词算法研究.PDF

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Perl的汉语自动分词算法研究

第24卷第l期 中州大学学报 2007年1月 V01.24No.1 JOURNAL0FZHONGZHOUUNIVERSI’IY J跚.2007 基于Perl的汉语自动分词算法研究 王 巍 (北京航空航天大学自动化科学与电气工程学院,北京100083) 摘要:汉语的自动分词是汉语语言处理的基础,本文讨论了汉语自动分词歧义问题的产生与分类,重点研究 了交集型歧义字段的排歧策略,实现了一种基于Ped的汉语自动分词方法,在比较同种算法的VC++实现上,结果显 示基于Ped的实现具有简洁和高效的优点。 关键词:自动分词;交集型歧义字段;基于Ped语言 中图分类号:哪9l 文献标识码:A 文章编号:1008—3715(2007)Ol一0120—03 一、引言 t咄Language)是hrrywall于1987年为进行文本处理和系 自动分词是中文信息处理的基础,主要应用在信息检 索、汉字的智能输入、自动摘要、自动分类等很多方面。汉语 言具有出色的处理文本能力,并且是跨平台的编程语言。与 自动分词的任务,简单地说,就是要由机器在中文文本中词 其他大部分语言不一样,Ped没有不同的变量类型。Ped中 与词之间自动加上空格。但汉语词语的切分往往存在歧义, 只有一种数据类型,即字符串。Ped允许你使用数字,但 歧义的处理是自动分词系统中最核心的部分。一般来说,有 Ped实际上关心的是这些数字组成的字符串。 两种基本的切分歧义类型,一是交集型切分歧义,如汉字串 依扫描句子的方向,可分正向最大匹配MM(从左到右) AJB中AJ,JB同时为词;一是多义组合型切分歧义,即汉字和逆向最大匹配RMM(从右向左)两种,从最大匹配法出发 导出了“双向最大匹配法”,即MM+RMM。在汉语文本中 串AB中A,B,AB同时为词。据统计,汉语真实文本中,歧 义切分现象的出现概率约为1/110,其中,交集型歧义切分 9.O%左右的句子MM和RMM切分不同,但其中必有一个 现象占86%,因此这种歧义切分应该作为重点加以处理。 是正确的(歧义检测成功),只有不到1.O%的句子,或者 识别交集型歧义字段一般采用双向扫描方法,即对同一 MM和RMM的切分虽然重合却是错的,或者MM和RMM 字段分别用正向匹配和逆向匹配方法,如果两种方法的切分 切分不同但两个都不对(歧义检测失败),所以双向最大匹 方法不同,则认为有交集型歧义。对组合型歧义字段,目前 配法在实用中文信息处理系统中得到广泛使用。 还没有较好的识别技术,对组合型歧义字段的识别在一定程 双向最大匹配法重点是放在检错和纠错上,基本做法是 度上要依赖组合型歧义字段库。而排歧算法主要包括最大 将正向最大匹配法的结果和逆向最大匹配法的结果作比较, 匹配法,基于统计模型的Viterbi算法。利用统计模型方法一致的切分结果认为是正确的,不一致的切分结果则采用人 只能解决交集型歧义切分问题,因为根据算法思路,任何两 工干预或上下文相关信息选取一种切分。 个词的费用之和必不小于这两个词作为一个整体的费用。 基于Perl的双向最大匹配法流程如下: Extraction粕d Ped(Practical 1)读入文本数据作为匹配算法的词典; Reporting蛔age)是解释 型的脚本语言,它具有出色的处理文本能力,是跨平台的编 2)对输入的句子做正向最大匹配分词,切分好的句子 为MMSen£ence; 程语言,Window弓,“nux,自主内存管理,没有内存泄漏问题, 强大便捷的模块化功能。本文首先探讨汉语自动分词的歧

文档评论(0)

shaofang00 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档