- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IKAnalyzer 中文分词器
V2012 FF 使用手册
目彔
1.IK Analyzer 2012 介绍2
2.使用指南5
3.词表扩展12
4.针对solr 的分词器应用扩展16
5.关于作者16
1.IK Analyzer 2012 介绍
IK Analyzer 是一个开源的,基亍java 语言开发的轻量级的中文分词工具包。从2006
年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目
Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0 版本开始,
IK 发展为面向Java 的公用分词组件,独立亍Lucene 项目,同时提供了对 Lucene 的默认
优化实现。在2012 版本中,IK 实现了简单的分词歧义排除算法,标志着IK 分词器从单纯
的词典分词向模拟语义分词衍化。
1.1 IK Analyzer 2012 结构设计
1.2 IK Analyzer 2012 特性
采用了特有的 “正向迭代最细粒度切分算法 “,支持细粒度和智能分词两种切分模式;
在系统环境:Core2 i7 3.4G 双核,4G 内存,window 7 64 位, Sun JDK 1.6_29 64
位 普通pc 环境测试,IK2012 具有160 万字/秒(3000KB/S )的高速处理能力。
2012 版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。
采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、
日文字符
优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的 ,在2012 版本,
词典支持中文,英文,数字混合词语。
1.3 分词效果示例
IK Analyzer 2012 版本支持 细粒度切分 和 智能切分 ,以下是两种切分方式的演示样例。
文本原文1:
IKAnalyzer 是一个开源的,基亍java 语言开发的轻量级的中文分词工具包。从2006 年12
月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。
智能分词结果:
ikanalyzer | 是 | 一个 | 开源 | 的 | 基亍 | java | 语言 | 开发 | 的 | 轻量级 | 的 | 中
文 | 分词 | 工具包 | 从 | 2006年 | 12月 | 推出 | 1.0版 | 开始 | ikanalyzer | 已经 | 推
| 出了 | 3个 | 大 | 版本
最细粒度分词结果:
ikanalyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基亍 | java | 语言 | 开发 | 的 | 轻量级
| 量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 包 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 |
版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本
文本原文2:
张三说的确实在理
智能分词结果:
张三 | 说的 | 确实 | 在理
最细粒度分词结果:
张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理
文本原文3
公路局正在治理解放大道路面积水问题
智能分词结果:
公路局 | 正在 | 治理 | 解放 | 大道 | 路面 | 积水 | 问题
最细粒度分词结果:
公路局 | 公路 | 路局 | 正在 | 治理 | 理解 | 解放 | 放大 | 大道 | 道路 | 路面 | 面积
| 积水 | 问题
文本原文4
据路透社报道,印度尼西亚社会事务部一官员星期二(29 日)表示,日惹市附近当地时间27
日晨5 时53 分发生的里氏6.2 级地震已经造成至少 5427 人死亡,20000 余人受伤,近20
万人无家可归。
智能分词结果:
据 | 路透社 | 报道 | 印度尼西亚 | 社会 | 事务部 | 一 | 官员 | 星期二 | 29 日 | 表示 |
日 | 惹 | 市 | 附近 | 当地时间 | 27 日 | 晨 | 5 时 | 53 分 |
原创力文档


文档评论(0)