IKAnalyzer中文分词器.PDFVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IKAnalyzer 中文分词器 V2012 FF 使用手册 目彔 1.IK Analyzer 2012 介绍2 2.使用指南5 3.词表扩展12 4.针对solr 的分词器应用扩展16 5.关于作者16 1.IK Analyzer 2012 介绍 IK Analyzer 是一个开源的,基亍java 语言开发的轻量级的中文分词工具包。从2006 年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。从3.0 版本开始, IK 发展为面向Java 的公用分词组件,独立亍Lucene 项目,同时提供了对 Lucene 的默认 优化实现。在2012 版本中,IK 实现了简单的分词歧义排除算法,标志着IK 分词器从单纯 的词典分词向模拟语义分词衍化。 1.1 IK Analyzer 2012 结构设计 1.2 IK Analyzer 2012 特性  采用了特有的 “正向迭代最细粒度切分算法 “,支持细粒度和智能分词两种切分模式;  在系统环境:Core2 i7 3.4G 双核,4G 内存,window 7 64 位, Sun JDK 1.6_29 64 位 普通pc 环境测试,IK2012 具有160 万字/秒(3000KB/S )的高速处理能力。  2012 版本的智能分词模式支持简单的分词排歧义处理和数量词合并输出。  采用了多子处理器分析模式,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、 日文字符  优化的词典存储,更小的内存占用。支持用户词典扩展定义。特别的 ,在2012 版本, 词典支持中文,英文,数字混合词语。 1.3 分词效果示例 IK Analyzer 2012 版本支持 细粒度切分 和 智能切分 ,以下是两种切分方式的演示样例。 文本原文1: IKAnalyzer 是一个开源的,基亍java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。  智能分词结果: ikanalyzer | 是 | 一个 | 开源 | 的 | 基亍 | java | 语言 | 开发 | 的 | 轻量级 | 的 | 中 文 | 分词 | 工具包 | 从 | 2006年 | 12月 | 推出 | 1.0版 | 开始 | ikanalyzer | 已经 | 推 | 出了 | 3个 | 大 | 版本  最细粒度分词结果: ikanalyzer | 是 | 一个 | 一 | 个 | 开源 | 的 | 基亍 | java | 语言 | 开发 | 的 | 轻量级 | 量级 | 的 | 中文 | 分词 | 工具包 | 工具 | 包 | 从 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 开始 | ikanalyzer | 已经 | 推出 | 出了 | 3 | 个 | 大 | 版本 文本原文2: 张三说的确实在理  智能分词结果: 张三 | 说的 | 确实 | 在理  最细粒度分词结果: 张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理 文本原文3 公路局正在治理解放大道路面积水问题  智能分词结果: 公路局 | 正在 | 治理 | 解放 | 大道 | 路面 | 积水 | 问题  最细粒度分词结果: 公路局 | 公路 | 路局 | 正在 | 治理 | 理解 | 解放 | 放大 | 大道 | 道路 | 路面 | 面积 | 积水 | 问题 文本原文4 据路透社报道,印度尼西亚社会事务部一官员星期二(29 日)表示,日惹市附近当地时间27 日晨5 时53 分发生的里氏6.2 级地震已经造成至少 5427 人死亡,20000 余人受伤,近20 万人无家可归。  智能分词结果: 据 | 路透社 | 报道 | 印度尼西亚 | 社会 | 事务部 | 一 | 官员 | 星期二 | 29 日 | 表示 | 日 | 惹 | 市 | 附近 | 当地时间 | 27 日 | 晨 | 5 时 | 53 分 |

文档评论(0)

***** + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档