Ikanalyzer分词器动态自定义词库的方法.docVIP

Ikanalyzer分词器动态自定义词库的方法.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Ikanalyzer分词器动态自定义词库的方法

Ikanalyzer分词器动态自定义词库的方法 IKanalyzer可通过配置Ikanalyzer.cfg.xml进行自定义词库,但有时需要在程序中根据不同的文章动态调用不同的词库进行分词,这就需要自定义Configuration类来实现。方法如下: 首先,拷贝Ikanalyzer源码中的DefaultConfig.java,改为MyConfiguration.java,然后做如下改写: public class MyConfiguration implements Configuration{ //懒汉单例 private static final Configuration CFG = new MyConfiguration(); /* * 分词器默认字典路径 */ private String PATH_DIC_MAIN = org/wltea/analyzer/dic/main2012.dic;   //需要把static final去掉 private String static final PATH_DIC_QUANTIFIER = org/wltea/analyzer/dic/quantifier.dic;   /* * 分词器配置文件路径 */ private static final String FILE_NAME = IKAnalyzer.cfg.xml;//保留静态自定义词库的功能 //配置属性——扩展字典 private static final String EXT_DICT = ext_dict; //配置属性——扩展停止词典 private static final String EXT_STOP = ext_stopwords; private Properties props; /* * 是否使用smart方式分词 */ private boolean useSmart; /** * 返回单例 * @return Configuration单例 */ public static Configuration getInstance(){ return CFG; } /* * 初始化配置文件 */ MyConfiguration(){ props = new Properties(); InputStream input = this.getClass().getClassLoader().getResourceAsStream(FILE_NAME); if(input != null){ try { props.loadFromXML(input); } catch (InvalidPropertiesFormatException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } } /** * 返回useSmart标志位 * useSmart =true ,分词器使用智能切分策略, =false则使用细粒度切分 * @return useSmart */ public boolean useSmart() { return useSmart; } /** * 设置useSmart标志位 * useSmart =true ,分词器使用智能切分策略, =false则使用细粒度切分 * @param useSmart */ public void setUseSmart(boolean useSmart) { this.useSmart = useSmart; } /** * 新加函数:设置主词典路径 * * @return String 主词典路径 */ public void setMainDictionary(String path) { this.PATH_DIC_MAIN = path; } /** * 获取主词典路径 * * @return String 主词典路径 */ public String getMainDictionary(){ return PATH_DIC_MAIN; } /** * 获取量词词典路径 * @return String 量词词典路径 */ public String getQuantifierDicionary(){ return PATH_DIC_QUANTIFIER; } /** * 获取扩展字典配置路径 * @return ListString 相对类加载器的路径 */ public ListString getExtDictionarys(){ ListString extDictFiles = new

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档