中文分词算法研究综述.doc

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中文分词算法研究综述

中文分词算法研究综述 * 张启宇 1 朱 玲 张雅萍 3 2 (1 中国农业大学烟台研究院 山东烟台 264670) (2 山东工商学院中加高等应用技术学院 烟台 264005) (3 青岛农业大学外国语学院 山东 266109) 摘 要 中文分词是中文信息的关键技术之一,其质量高低直接影响中文信息处理效率。 文章对各种中 文分词算法进行了详细的阐述,并进行了比较和讨论。 关键词 中文分词 算法 分词方法 综述 与英语等语言不同, 汉语中的词基本上没有形 态变化,一个汉语句子由一串前后连续的汉字组成, 词与词之间没有明显的分界标志。 汉语的书面表达 方式是以汉字为最小单位的,但在自然语言理解中, 词是最小的、能独立活动的、有意义的语言成分。 中 文分词就是把没有分割标志的汉字串 (没有词的边 界) 转换到符合语言实际的词串即在书面汉语中建 立词的边界。 中文分词是中文信息处理的一???主要 组成部分,在中文文本的自动检索、过滤、分类及摘 要,中文文本的自动校对,汉外机器翻译,汉字识别 与汉语语音识别的后处理, 汉语语音合成等领域中 都扮演着极为重要的角色。 随着中文信息处理的发展, 中文分词也得到了 很大的发展,出现了众多的算法。 根据其特点,可以 将现有的分词算法分为四大类: 基于字符串匹配的 分词方法、基于理解的分词方法、基于统计的分词方 法和基于语义的分词方法。 1 基于字符串匹配的分词方法 匹配成功,匹配字段作为一个词被切分出来;若词典 中找不到这样的一个 i 字词,则匹配失败,匹配字段 去掉最后一个汉字,剩下的字符作为新的匹配字段, 再进行匹配,如此进行下去,直到匹配成功为止。 统 计结果表明,该方法的错误率为 1/169。 (2)逆向最大匹配法(RMM)。 该方法的分词过 程与 MM 法相同,不同的是从句子(或文章)末尾开 始处理, 每次匹配不成功时去掉的是前面的一个汉 字。 统计结果表明,该方法的错误率为 1/245。 (3)逐词遍历法。 把词典中的词按照由长到短递 减的顺序逐字搜索整个待处理的材料, 一直到把全 部的词切分出来为止。 不论分词词典多大,被处理的 材料多么小,都得把这个分词词典匹配一遍。 (4)设立切分标志法。 切分标志有自然和非自然 之分。 自然切分标志是指文章中出现的非文字符号, 如标点符号等; 非自然标志是利用词缀和不构成词 的词(包括单音词、复音节词以及象声词等)。 设立切 分标志法首先收集众多的切分标志, 分词时先找出 切分标志, 把句子切分为一些较短的字段 , 再 用 MM、RMM 或其它的方法进行细加工。 这种方法并非 真正意义上的分词方法, 只是自动分词的一种前处 理方式而已,它要额外消耗时间扫描切分标志,增加 存储空间存放那些非自然切分标志。 (5)最佳匹配法(OM)。 此法分为正向的最佳匹配 法和逆向的最佳匹配法,其出发点是:在词典中按词 频的大小顺序排列词条,以求缩短对分词词典的检索 时间,达到最佳效果,从而降低分词的时间复杂度,加 快分词速度。 实质上,这种方法也不是一种纯粹意义 上的分词方法, 它只是一种对分词词典的组织方式。 OM 法的分词词典每条词的前面必须有指明长度的 数据项,所以其空间复杂度有所增加,对提高分词精 这种方法又叫作机械分词方法、 基于字典的分 词方法, 它是按照一定的策略将待分析的汉字串与 一个“充分大的”机器词典中的词条进行匹配。 若在 词典中找到某个字符串, 则匹配成功 (识别出一个 词)。 该方法有三个要素,即分词词典、文本扫描顺序 和匹配原则。 文本的扫描顺序有正向扫描、逆向扫描 和双向扫描。 匹配原则主要有最大匹配、最小匹配、 逐词匹配和最佳匹配。 1.1 基于字符串匹配的分词方法的介绍 (1)最大匹配法(MM)。 基本思想是:假设自动分 词词典中的最长词条所含汉字的个数为 i,则取被处 理材料当前字符串序列中的前 i 个字符作为匹配字 段,查找分词词典,若词典中有这样一个 i 字词, 则 * 本文系中国农业大学烟台研究院科研项目“烟台校区数字图书馆的研究与设计”(项目编号:YT200713)研究成果。 作者简介:张启宇(1978—),男,硕士,助教,研究方向为计算机网络与通讯、数字图书馆;朱玲(1979— ),女,硕士,助教,研究方向: 智能控制、数字图书馆;张雅萍(1979— ),女,学士,讲师。 度没有影响,分词处理的时间复杂度有所降低。 (6)有穷多层次列举法。 该方法的基本思想是: 把待处理材料中标点符合区分的语言片断作处理对 象,先处理不用查词表的具有特殊标志的字符串,如 阿拉伯数字、 拉丁字母等, 再用环境词表确定属于 15 类可列举的词, 即先判断一个词能否组成多音 词,如五音词、四

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档