一种快速高效的中文分词算法.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种快速高效的中文分词算法.pdf

第 4卷 第 3期 宁 波 城 市 职 业 技 术 学 院 学 报 Vo1.4No.3 2009年 9月 JOURNALOFNINGBO CITY COLLEGE OFVOCAT10NALTECHNOLOGY Sept.2009 一 种快速高效的中文分词算法 石正喜 (宁渡城市职业技术学院信息学院,浙江 宁渡 315100) 摘 要 :对最大匹配法的缺陷、设计的中文分词算法的特点作 了简单介绍,详细说 明了一种快速高效的中文分 词算法的词库建立方法和算法的实现过程 ,对分词 中遇到的问题提 出了相应 的解决办法,实验证明,该算法具 有较高的分词效率。 关键词 :自然语言处理 ;中文分词 ;快速高效的分词算法 中图分类号 :TP301.6 文献标识码 :A 文章编号 :(2009)03—0054—03 1 最大匹配法的缺陷 中文歧义时,我知道不管我们怎么努力 ,它仍然是 尽管最大匹配法分词是常用的解决方案,但 不可能彻底解决 的。因为 中文实在太博大精深 是无疑它存在很多明显的缺 陷,这些缺陷也限制 了,即使有极强的人工智能和机器学 习功能,这样 了最大匹配法在大型搜索系统 中的使用频率。最 的错误仍然是难 以避免。既然是难 以避免 ,那么 大匹配法的问题有以下几点:1)、长度限制。词长 我们就必须换一个角度去考虑 ,将 出现歧义 的各 过短 ,长词就会被切错 ;词长过长,效率就比较低 ; 种可能性都包含进去 ,作为分词的结果 。 2)、效率低 。效率低是最大匹配法分词必然会来 3词库建立 的问题 ;3)、掩盖分词歧义。例如 :“有意见分歧” 建立词库时,需要考虑以下问题 : , 正向最大匹配的结果为:“有意/见 /分歧 /”,逆 3.1词库的保存格式。现在最常用的保存数 向最大匹配结果为 :“有 /意见 /分歧 /”,两者的 据的方式当然是关系数据库 ;其 次是文件 系统 中 结果不一样 ;4)、最大匹配的并不一定是想要 的分 的二进制文件。显然关系数据库对于我们并不适 词方式。例如:“结合成分子时”,正 向最大匹配 用 ,而 自定义的二进制文件则实现起来 比较 困难, 和逆向最大匹配结果相同,都是 “结合 /成分 /子 而且读写的效率也较低。因此我们想到了最简单 时/”,但实际结果可能是 :“结合 /成 /分子 /时/”。 的方法是利用 java的 serialization的功能 ,把整个 内存 中的树状结构直接序列化成磁盘的文本文件 2设计的中文分词算法的特点 是最方便的,而且读写的效率也会相当的高。 基于对分词算法的理解和对最大匹配法分词 3.2树的父子节点 的导航。我们的树并不是 的分析,我们提出了不同的解决方案,使分词算法 一 颗二叉树 ,父亲的子节点会很多。尤其是第一 的效率、分词的长度限制、歧义处理等得到提高和 层 ,我们会把词库 中所有的首字都取 出来作为根 改善。我们设计的分词算法具有如下特点:1)、高 节点的子节点,这意味着如果首字有 4000个 的 效。中文分词算法必须要高效 ,毕竟效率对于搜 话 ,根节点就有4000个儿子 ;另外,将词语的最后 索引擎的重要性是不言而喻的。而且我

文档评论(0)

我才是小泥巴 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档