中文分词算法研究综述.doc

下载文档 降价啦

33
0
约8.7千字
约 4页
2018-04-25 发布于江西
举报
版权申诉
保障服务

中文分词算法研究综述.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

中文分词算法研究综述

中文分词算法研究综述 * 张启宇 1 朱玲张雅萍 3 2 （1 中国农业大学烟台研究院山东烟台 264670）（2 山东工商学院中加高等应用技术学院烟台 264005）（3 青岛农业大学外国语学院山东 266109）摘要中文分词是中文信息的关键技术之一，其质量高低直接影响中文信息处理效率。文章对各种中文分词算法进行了详细的阐述，并进行了比较和讨论。关键词中文分词算法分词方法综述与英语等语言不同，汉语中的词基本上没有形态变化，一个汉语句子由一串前后连续的汉字组成，词与词之间没有明显的分界标志。汉语的书面表达方式是以汉字为最小单位的，但在自然语言理解中，词是最小的、能独立活动的、有意义的语言成分。中文分词就是把没有分割标志的汉字串（没有词的边界）转换到符合语言实际的词串即在书面汉语中建立词的边界。中文分词是中文信息处理的一???主要组成部分，在中文文本的自动检索、过滤、分类及摘要，中文文本的自动校对，汉外机器翻译，汉字识别与汉语语音识别的后处理，汉语语音合成等领域中都扮演着极为重要的角色。随着中文信息处理的发展，中文分词也得到了很大的发展，出现了众多的算法。根据其特点，可以将现有的分词算法分为四大类：基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法。 1 基于字符串匹配的分词方法匹配成功，匹配字段作为一个词被切分出来；若词典中找不到这样的一个 i 字词，则匹配失败，匹配字段去掉最后一个汉字，剩下的字符作为新的匹配字段，再进行匹配，如此进行下去，直到匹配成功为止。统计结果表明，该方法的错误率为 1/169。（2）逆向最大匹配法（RMM）。该方法的分词过程与 MM 法相同，不同的是从句子（或文章）末尾开始处理，每次匹配不成功时去掉的是前面的一个汉字。统计结果表明，该方法的错误率为 1/245。（3）逐词遍历法。把词典中的词按照由长到短递减的顺序逐字搜索整个待处理的材料，一直到把全部的词切分出来为止。不论分词词典多大，被处理的材料多么小，都得把这个分词词典匹配一遍。（4）设立切分标志法。切分标志有自然和非自然之分。自然切分标志是指文章中出现的非文字符号，如标点符号等；非自然标志是利用词缀和不构成词的词（包括单音词、复音节词以及象声词等）。设立切分标志法首先收集众多的切分标志，分词时先找出切分标志，把句子切分为一些较短的字段，再用 MM、RMM 或其它的方法进行细加工。这种方法并非真正意义上的分词方法，只是自动分词的一种前处理方式而已，它要额外消耗时间扫描切分标志，增加存储空间存放那些非自然切分标志。（5）最佳匹配法（OM）。此法分为正向的最佳匹配法和逆向的最佳匹配法，其出发点是：在词典中按词频的大小顺序排列词条，以求缩短对分词词典的检索时间，达到最佳效果，从而降低分词的时间复杂度，加快分词速度。实质上，这种方法也不是一种纯粹意义上的分词方法，它只是一种对分词词典的组织方式。 OM 法的分词词典每条词的前面必须有指明长度的数据项，所以其空间复杂度有所增加，对提高分词精这种方法又叫作机械分词方法、基于字典的分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。若在词典中找到某个字符串，则匹配成功 (识别出一个词)。该方法有三个要素，即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配。 1.1 基于字符串匹配的分词方法的介绍（1）最大匹配法（MM）。基本思想是：假设自动分词词典中的最长词条所含汉字的个数为 i，则取被处理材料当前字符串序列中的前 i 个字符作为匹配字段，查找分词词典，若词典中有这样一个 i 字词，则 * 本文系中国农业大学烟台研究院科研项目“烟台校区数字图书馆的研究与设计”（项目编号：YT200713）研究成果。作者简介：张启宇(1978—)，男，硕士，助教，研究方向为计算机网络与通讯、数字图书馆；朱玲（1979— ），女，硕士，助教，研究方向：智能控制、数字图书馆；张雅萍（1979— ），女，学士，讲师。度没有影响，分词处理的时间复杂度有所降低。（6）有穷多层次列举法。该方法的基本思想是：把待处理材料中标点符合区分的语言片断作处理对象，先处理不用查词表的具有特殊标志的字符串，如阿拉伯数字、拉丁字母等，再用环境词表确定属于 15 类可列举的词，即先判断一个词能否组成多音词，如五音词、四