分享IK,分享开源——兼谈在Lucene搜索中的应用.pptxVIP

分享IK,分享开源——兼谈在Lucene搜索中的应用.pptx

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分享IK,分享开源 —— 兼谈在Lucene搜索中的应用 林良益 2012年 12月 内容提要中文分词简介IK中文分词与开源IK中文分词技术分享IK在Lucene搜索中的应用背景篇中文分词简介中文分词是神马? 中文分词 (Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的中文词元的过程。它属于自然语言处理( Natural Language Processing )技术范畴例如: 英语:”Time is money“ 因为分界符的存在,可自然分割为 Time / is / money三个词 中文:”时间就是金钱 ” 由于词语间没有分隔符,无法直接识别出 时间 / 就是 / 金钱中文分词简介中文分词的应用领域全文搜索(搜索引擎)自动摘要(关键词识别)机器翻译信息分类,聚合,挖掘实践过的项目站内搜索(基于Lucene)网页软性广告统计(同义词元统计分析)敏感信息与垃圾过滤(关键词抓取匹配)成长故事篇IK中文分词与开源IK中文分词的由来为了实现电子地图的名址信息搜索数据库在功能和性能上捉襟见肘,于是找到了/Lucene(开源的全文搜索引擎)学习/tech/lucene.html车东的文章了解中文分词器在索引中的关键性作用使用Lucene自带的单字分词和CJK二元分词多次的实验测试在复杂条件下的搜索结果不太理想催生了自己编写分词器的念想IK中文分词与开源IK分词器“编年史”IK分词器版本发布日期开源情况特性分词速度V1.02006-12公司项目内部使用,未对外公开使用词典双向全切分算法支持Lucene2.x API标准约11万字/秒V1.1- V1.42006-12至2007-11在CSDN上发布共享,但未公开源码优化算法效率优化对人名和公司名切分的约17万字/秒2.0.22008-02在CSDN上发布共享,并开放源代码使用正向全切分算法引入Trie树结构字典约42万字/秒3.0.X-3.1.32009-07至2009-09在GoogleCode上建立项目,托管代码。提供了正式的使用说明文档。采用了全新的子分词器架构使用“正向迭代最细粒度切分”添加了IK查询分析器约50 万字/秒3.1.5-3.1.62009-10至2009-12添加了对Solr的API支持新增对停止词的自定义扩展设计了分词结果排序器,优化分词算法约65 万字/秒3.2.x2009-12至2011-03升级API,支持Lucene3.x 添加对韩文、日文的支持,采用单字切分优化词典匹配算法约80 万字/03重构分词算法,优化的词典存储结构支持分词歧义处理支持中英文混合词语切分约160万字/秒约3000KB/秒2012FF2012-101.支持Lucene4.0 / solr4.0 APIIK中文分词与开源IK中文分词发展现状目前的用户情况粗略统计,从06年12月至今,约20万人次下载行业分布:电信,证券,学校,政府应用类型:搜索,数据分析,垃圾信息处理当前版本(2012版)的特点速度快:Core2 i7 3.4G双核,4G内存,window 7 64位, Sun JDK 1.6_29 64位 普通pc环境测试,具有160万字/秒(3000KB/S)易扩展:采用多子分词器架构,支持:英文字母、数字、中文词汇等分词处理,兼容韩文、日文字符。易维护: 配置简单,/lengyuhong/article/details/6010123代码注释清晰,容易阅读,方便定制修改。词典可自定义,且格式简单。支持简单的分词歧义处理。IK的不足词典缺乏词频度,词性等信息支持。对分词歧义处理,仅做了技术性实现,缺乏完整的算法模型支持。这约束了IK作为通用分词器的可用范畴。IK中文分词效果原文: 当地玛雅人说,玛雅历法的世纪更替一直被外界误读,虽说之前记载的前四个太阳纪都是以天灾作为结束,但这并不意味着2012年12月21日第五个太阳纪的最后一天将会有什么不测发生。(摘自凤凰网《/world/detail_2012_12/210.shtml玛雅人称新纪元如新年开始 长老吁中国民众莫/world/detail_2012_12/210.shtml恐慌》)分词结果: 当地 | 玛雅人 | 说 | 玛雅 | 历法 | 世纪 | 更替 | 一直 | 外界 | 误读 | 虽说 | 之前 | 记载 | 前 | 四个 | 太阳 | 纪 | 都 | 是以 | 天灾 | 作为 | 结束 | 这 | 并不 | 意味着 | 2012年 | 12月 | 21日 | 第五个 | 太阳 | 纪 | 最后 | 一天 | 将会 | 有 | 什么 | 不测 | 发生 | IK中文分词效果原文: 全文搜索技术的特点是:速度超

文档评论(0)

max + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档