- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IKAnalyzer 中文分词器
V3.2 使用手册
目录
1.IK Analyzer 3.X 介绍 2
2.使用指南 5
3.词表扩展 14
4.针对solr 的分词器应用扩展 16
5.关于作者 18
1.IK Analyzer 3.X 介绍
IK Analyzer 是一个开源的,基于java 诧言开发的轻量级的中文分词工具包。从2006
年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 3 个大版本。最初,它是以开源项目
Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的 IK
Analyzer 3.X 则发展为面吐 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对
Lucene 的默认优化实现。
1.1 IK Analyzer 3.X 结构设计
1.2 IK Analyzer 3.X 特性
采用了特有的“正吐迭代最细粒度切分算法“,具有80 万字/秒的高速处理能力。
采用了多子处理器分析模式,支持:英文字母(IP 地址、Email、URL )、数字(日期,
常用中文数量词,罗马数字,科学计数法),中文词汇(姓名、地名处理)等分词处理。
优化的词典存储,更小的内存占用。支持用户词典扩展定义
针对 Lucene 全文检索优化的查询分析器IKQueryParser(作者吏血推荐) ;采用歧义分
析算法优化查询关键字的搜索排列组合,能极大的提高 Lucene 检索的命中率。
1.3 分词效果示例
IK Analyzer 3.2.8 版本支持 细粒度切分 和 最大词长切分 ,以下是两种切分方式的演示样
例。
文本原文1:
IKAnalyzer 是一个开源的,基于java 诧言开发的轻量级的中文分词工具包。从2006 年12
月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。
最大词长分词结果:
ikanalyzer | 是 | 一个 | 开源 | 的 | 基于 | java | 诧言 | 开发 | 的 | 轻量级 | 的 | 中
文 | 分词 | 工具包 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer |
已经 | 推出 | 出了 | 3 | 个 | 大 | 版本
最细粒度分词结果:
ikanalyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基于 | java | 诧言 | 开发 | 的 | 轻
量级 | 量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 从 | 2006 | 年 | 12 | 月 | 推出 |
1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本
文本原文2:
作者博客: 电子邮件:linliangyi2005@
最大词长分词结果:
作者 | 博客 | | 电子邮件 | linliangyi2005@
最细粒度分词结果:
作者 | 博客 | | linliangyi | 2007 | javaeye | com | 电子邮件
| linliangyi2005@ | linliangyi | 2005 | gmail | com
文本原文3
古田县城关六一四路四百零五号
最大词长分词结果:
古田县 | 县城 | 城关 | 六一四 | 路 | 四百零五 | 号
最细粒度分词结果:
古田县 | 古田 | 县城 | 城关 | 六一四 | 六一 | 四 | 路 | 四百零五 | 四 | 百 | 零 |
五 | 号
文本原文4
曙光天阔 I620r-G /A950r-F 夏普SH9020C
最大词长分词结果:
曙光 | 天 | 阔 | i620r-g | a950r-f | 夏普 | sh9020c
最细粒度分词结果:
曙光 | 天 | 阔 | i620r-g | i | 620 | r | g | a950r-f | a | 950 | r | f | 夏普 | sh9020c | sh |
9020 | c
2.使用指南
2.1 下载地址
GoogleCode
初级会计持证人
专注于经营管理类文案的拟写、润色等,本人已有10余年相关工作经验,具有扎实的文案功底,尤善于各种框架类PPT文案,并收集有数百万份各层级、各领域规范类文件。欢迎大家咨询!
文档评论(0)