- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Ikanalyzer分词器动态自定义词库的方法
IKanalyzer可通过配置Ikanalyzer.cfg.xml进行自定义词库,但有时需要在程序中根据不同的文章动态调用不同的词库进行分词,这就需要自定义Configuration类来实现。方法如下:
首先,拷贝Ikanalyzer源码中的DefaultConfig.java,改为MyConfiguration.java,然后做如下改写:
public class MyConfiguration implements Configuration{//懒汉单例private static final Configuration CFG = new MyConfiguration();/** 分词器默认字典路径 */private String PATH_DIC_MAIN = org/wltea/analyzer/dic/main2012.dic; //需要把static final去掉private String static final PATH_DIC_QUANTIFIER = org/wltea/analyzer/dic/quantifier.dic; /** 分词器配置文件路径*/ private static final String FILE_NAME = IKAnalyzer.cfg.xml;//保留静态自定义词库的功能//配置属性——扩展字典private static final String EXT_DICT = ext_dict;//配置属性——扩展停止词典private static final String EXT_STOP = ext_stopwords;private Properties props;/** 是否使用smart方式分词*/private boolean useSmart;/*** 返回单例* @return Configuration单例*/public static Configuration getInstance(){return CFG;}/** 初始化配置文件*/MyConfiguration(){props = new Properties(); InputStream input = this.getClass().getClassLoader().getResourceAsStream(FILE_NAME);if(input != null){try {props.loadFromXML(input);} catch (InvalidPropertiesFormatException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();}}} /*** 返回useSmart标志位* useSmart =true ,分词器使用智能切分策略, =false则使用细粒度切分* @return useSmart*/public boolean useSmart() {return useSmart;}/*** 设置useSmart标志位* useSmart =true ,分词器使用智能切分策略, =false则使用细粒度切分* @param useSmart*/public void setUseSmart(boolean useSmart) {this.useSmart = useSmart;} /*** 新加函数:设置主词典路径* * @return String 主词典路径*/public void setMainDictionary(String path) {this.PATH_DIC_MAIN = path;} /*** 获取主词典路径* * @return String 主词典路径*/public String getMainDictionary(){return PATH_DIC_MAIN;}/*** 获取量词词典路径* @return String 量词词典路径*/public String getQuantifierDicionary(){return PATH_DIC_QUANTIFIER;}/*** 获取扩展字典配置路径* @return ListString 相对类加载器的路径*/public ListString getExtDictionarys(){ListString extDictFiles = new
您可能关注的文档
- hl接口开发商中文使用手册.doc
- HL斗式提升机使用说明书.doc
- XXX学开展侵群害众利益不正之风和腐败问题专项整治行动实施方案.docx
- HOCO气体的实验室制法比较.doc
- HoneyFunnyBunny罗马音译歌词.doc
- hostmonitor简单配置及使用方法.doc
- HowtoGetthePooroffOurConscience翻译Summary.doc
- HowtoArouseStudents.doc
- Xxx学校创建义务教育标准化学校验收请示模板.doc
- howtolearningenglish.doc
- 2025-2026学年中职专业课-数控车床编程与操作-数控技术应用-装备制造大类教学设计合集.docx
- 2025计算机软件许可合同模板示例.docx
- 2025-2026学年中职专业课-算法与程序设计(C#)-计算机类-电子与信息大类教学设计合集.docx
- 2025-2026学年中职专业课-天然药物学基础-药剂-医药卫生大类教学设计合集.docx
- 2025-2026学年中职专业课-幼儿教育学-学前教育类-教育与体育大类教学设计合集.docx
- 新人音版四年级上册音乐教案.docx
- 医患关系的本质核心.pptx
- 风险评估与安全管理的协同发展.pptx
- 2025-2026学年中职专业课-统计基础知识-纳税事务-财经商贸大类教学设计合集.docx
- 引导医患和谐之道.pptx
最近下载
- 上海市杨浦区市东中学2020-2021学年高三(上)期中物理试题.pdf VIP
- 消防工程施工重点、难点分析及对策消防工程施工现场细节详解.docx
- 2021届上海市杨浦区市东中学高三(上)期中物理试题(学生版).doc VIP
- 2021届上海市杨浦区市东中学高三(上)期中物理试题(教师版).doc VIP
- 上海市2020年上学期杨浦区市东中学高三物理期中试题.docx VIP
- 2022-2023学年上海市实验学校高二(上)期末地理试卷.doc VIP
- 教育科研工作总结(范文)与教育科研案例·批评中的教育艺术合集.doc VIP
- 6三维建模.6三维建模.ppt VIP
- 上海市市东实验学校2024-2025学年高二下学期3月月考 数学试卷(含解析).docx VIP
- 2024年度-幼儿园《小手不是用来打人的》PPT课件.ppt VIP
原创力文档


文档评论(0)