- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种快速高效的中文分词算法.pdf
第 4卷 第 3期 宁 波 城 市 职 业 技 术 学 院 学 报 Vo1.4No.3
2009年 9月 JOURNALOFNINGBO CITY COLLEGE OFVOCAT10NALTECHNOLOGY Sept.2009
一 种快速高效的中文分词算法
石正喜
(宁渡城市职业技术学院信息学院,浙江 宁渡 315100)
摘 要 :对最大匹配法的缺陷、设计的中文分词算法的特点作 了简单介绍,详细说 明了一种快速高效的中文分
词算法的词库建立方法和算法的实现过程 ,对分词 中遇到的问题提 出了相应 的解决办法,实验证明,该算法具
有较高的分词效率。
关键词 :自然语言处理 ;中文分词 ;快速高效的分词算法
中图分类号 :TP301.6 文献标识码 :A 文章编号 :(2009)03—0054—03
1 最大匹配法的缺陷 中文歧义时,我知道不管我们怎么努力 ,它仍然是
尽管最大匹配法分词是常用的解决方案,但 不可能彻底解决 的。因为 中文实在太博大精深
是无疑它存在很多明显的缺 陷,这些缺陷也限制 了,即使有极强的人工智能和机器学 习功能,这样
了最大匹配法在大型搜索系统 中的使用频率。最 的错误仍然是难 以避免。既然是难 以避免 ,那么
大匹配法的问题有以下几点:1)、长度限制。词长 我们就必须换一个角度去考虑 ,将 出现歧义 的各
过短 ,长词就会被切错 ;词长过长,效率就比较低 ; 种可能性都包含进去 ,作为分词的结果 。
2)、效率低 。效率低是最大匹配法分词必然会来 3词库建立
的问题 ;3)、掩盖分词歧义。例如 :“有意见分歧” 建立词库时,需要考虑以下问题 :
, 正向最大匹配的结果为:“有意/见 /分歧 /”,逆 3.1词库的保存格式。现在最常用的保存数
向最大匹配结果为 :“有 /意见 /分歧 /”,两者的 据的方式当然是关系数据库 ;其 次是文件 系统 中
结果不一样 ;4)、最大匹配的并不一定是想要 的分 的二进制文件。显然关系数据库对于我们并不适
词方式。例如:“结合成分子时”,正 向最大匹配 用 ,而 自定义的二进制文件则实现起来 比较 困难,
和逆向最大匹配结果相同,都是 “结合 /成分 /子 而且读写的效率也较低。因此我们想到了最简单
时/”,但实际结果可能是 :“结合 /成 /分子 /时/”。 的方法是利用 java的 serialization的功能 ,把整个
内存 中的树状结构直接序列化成磁盘的文本文件
2设计的中文分词算法的特点
是最方便的,而且读写的效率也会相当的高。
基于对分词算法的理解和对最大匹配法分词
3.2树的父子节点 的导航。我们的树并不是
的分析,我们提出了不同的解决方案,使分词算法
一 颗二叉树 ,父亲的子节点会很多。尤其是第一
的效率、分词的长度限制、歧义处理等得到提高和
层 ,我们会把词库 中所有的首字都取 出来作为根
改善。我们设计的分词算法具有如下特点:1)、高
节点的子节点,这意味着如果首字有 4000个 的
效。中文分词算法必须要高效 ,毕竟效率对于搜
话 ,根节点就有4000个儿子 ;另外,将词语的最后
索引擎的重要性是不言而喻的。而且我
文档评论(0)