基于Perl的汉语自动分词算法研究.PDF

下载文档

6
0
约5.17千字
约 2页
2017-07-24 发布于江苏
举报
版权申诉
保障服务

基于Perl的汉语自动分词算法研究.PDF

1、本文档共2页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于Perl的汉语自动分词算法研究

第24卷第l期中州大学学报 2007年1月 V01．24No．1 JOURNAL0FZHONGZHOUUNIVERSI’IY J跚．2007 基于Perl的汉语自动分词算法研究王巍 (北京航空航天大学自动化科学与电气工程学院，北京100083) 摘要：汉语的自动分词是汉语语言处理的基础，本文讨论了汉语自动分词歧义问题的产生与分类，重点研究了交集型歧义字段的排歧策略，实现了一种基于Ped的汉语自动分词方法，在比较同种算法的VC++实现上，结果显示基于Ped的实现具有简洁和高效的优点。关键词：自动分词；交集型歧义字段；基于Ped语言中图分类号：哪9l 文献标识码：A 文章编号：1008—3715(2007)Ol一0120—03 一、引言 t咄Language)是hrrywall于1987年为进行文本处理和系自动分词是中文信息处理的基础，主要应用在信息检索、汉字的智能输入、自动摘要、自动分类等很多方面。汉语言具有出色的处理文本能力，并且是跨平台的编程语言。与自动分词的任务，简单地说，就是要由机器在中文文本中词其他大部分语言不一样，Ped没有不同的变量类型。Ped中与词之间自动加上空格。但汉语词语的切分往往存在歧义，只有一种数据类型，即字符串。Ped允许你使用数字，但歧义的处理是自动分词系统中最核心的部分。一般来说，有 Ped实际上关心的是这些数字组成的字符串。两种基本的切分歧义类型，一是交集型切分歧义，如汉字串依扫描句子的方向，可分正向最大匹配MM(从左到右) AJB中AJ，JB同时为词；一是多义组合型切分歧义，即汉字和逆向最大匹配RMM(从右向左)两种，从最大匹配法出发导出了“双向最大匹配法”，即MM+RMM。在汉语文本中串AB中A，B，AB同时为词。据统计，汉语真实文本中，歧义切分现象的出现概率约为1／110，其中，交集型歧义切分 9．O％左右的句子MM和RMM切分不同，但其中必有一个现象占86％，因此这种歧义切分应该作为重点加以处理。是正确的(歧义检测成功)，只有不到1．O％的句子，或者识别交集型歧义字段一般采用双向扫描方法，即对同一 MM和RMM的切分虽然重合却是错的，或者MM和RMM 字段分别用正向匹配和逆向匹配方法，如果两种方法的切分切分不同但两个都不对(歧义检测失败)，所以双向最大匹方法不同，则认为有交集型歧义。对组合型歧义字段，目前配法在实用中文信息处理系统中得到广泛使用。还没有较好的识别技术，对组合型歧义字段的识别在一定程双向最大匹配法重点是放在检错和纠错上，基本做法是度上要依赖组合型歧义字段库。而排歧算法主要包括最大将正向最大匹配法的结果和逆向最大匹配法的结果作比较，匹配法，基于统计模型的Viterbi算法。利用统计模型方法一致的切分结果认为是正确的，不一致的切分结果则采用人只能解决交集型歧义切分问题，因为根据算法思路，任何两工干预或上下文相关信息选取一种切分。个词的费用之和必不小于这两个词作为一个整体的费用。基于Perl的双向最大匹配法流程如下： Extraction粕d Ped(Practical 1)读入文本数据作为匹配算法的词典； Reporting蛔age)是解释型的脚本语言，它具有出色的处理文本能力，是跨平台的编 2)对输入的句子做正向最大匹配分词，切分好的句子为MMSen￡ence；程语言，Window弓，“nux，自主内存管理，没有内存泄漏问题，强大便捷的模块化功能。本文首先探讨汉语自动分词的歧