- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
11个Java开源中文分词器使用方法和分词效果对比
1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口:/** * 获取文本的所有分词结果, 对比不同分词器结果 * @author杨尚川 */publicinterfaceWordSegmenter{/** * 获取文本的所有分词结果 * @param text 文本 * @return所有的分词结果,去除重复 */defaultpublic SetString seg(String text) {return segMore(text).values().stream().collect(Collectors.toSet()); }/** * 获取文本的所有分词结果 * @param text 文本 * @return所有的分词结果,KEY 为分词器模式,VALUE 为分词器结果 */public MapString, String segMore(String text);}从上面的定义我们知道,在Java中,同样的方法名称和参数,但是返回值不同,这种情况不可以使用重载。这两个方法的区别在于返回值,每一个分词器都可能有多种分词模式,每种模式的分词结果都可能不相同,第一个方法忽略分词器模式,返回所有模式的所有不重复分词结果,第二个方法返回每一种分词器模式及其对应的分词结果。在这里,需要注意的是我们使用了Java8中的新特性默认方法,并使用stream把一个map的value转换为不重复的集合。下面我们利用这11大分词器来实现这个接口:1、word分词器@Overridepublic MapString, String segMore(String text) {MapString, String map = new HashMap();for(SegmentationAlgorithm segmentationAlgorithm : SegmentationAlgorithm.values()){ map.put(segmentationAlgorithm.getDes(), seg(text, segmentationAlgorithm)); }return map;}private staticString seg(String text, SegmentationAlgorithm segmentationAlgorithm) { StringBuilder result = new StringBuilder();for(Word word : WordSegmenter.segWithStopWords(text, segmentationAlgorithm)){ result.append(word.getText()).append( ); }return result.toString();}2、Ansj分词器@OverridepublicMapString, String segMore(String text) {MapString, String map = new HashMap();StringBuilder result = new StringBuilder();for(Term term : BaseAnalysis.parse(text)){ result.append(term.getName()).append( ); }map.put(BaseAnalysis, result.toString()); result.setLength(0);for(Term term : ToAnalysis.parse(text)){ result.append(term.getName()).append( ); }map.put(ToAnalysis, result.toString()); result.setLength(0);for(Term term : NlpAnalysis.parse(text)){ result.append(term.getName()).append( ); }map.put(NlpAnalysis, result.toString()); result.setLength(0);for(Term term :
您可能关注的文档
- Java程序题型.docx
- web java小程序合集.doc
- java时间按进位.docx
- java字典序问题和统计数字问题.doc
- java和.net的HashSet对比.docx
- 网上银行API 网银编程接口.doc
- Java Swing单击文本框弹出日历组件.docx
- java编写的信号量解决读者和写者的问题.doc
- java与分布式.docx
- java编写的小型计算器.doc
- 4《猜字谜》课件(共30张PPT).pptx
- 统编版语文二年级上册第三单元复习课件(共50张PPT).pptx
- 2025-2026学年山西大学附中高三上学期10月月考数学试题及答案(总第四次).docx
- 第四单元《逻辑的力量》课件(共57张PPT)2025-2026学年统编版高中语文选择性必修上册.pptx
- 2025-2026学年山西大学附中高三上学期10月月考历史试题及答案(总第四次).docx
- 统编版语文四年级下册习作 游______课件(共27张PPT).pptx
- 统编版四年级语文下册第六单元习作:我学会了___课件(共31张PPT).pptx
- 16.1《赤壁赋》课件(共59张PPT)2025—2026学年统编版高中语文必修上册.pptx
- 统编版四年级语文下册口语交际:朋友相处的秘诀 课件(共20张PPT).pptx
- 统编版五年级下册语文园地四 课件(共30张PPT).pptx
最近下载
- 《2025年城镇排水管道注浆法修复工程技术规程》知识培训.pptx VIP
- 基本药物制度政策培训课件.docx VIP
- 中医医院中医护理工作指南.pdf VIP
- DB65T3843.7-2015 棉花生产全程机械化技术规程 第7部分:采收作业.pdf VIP
- 曲线的切线问题教学设计-2024-2025学年高二上学期数学苏教版(2019)选择性必修第一册.docx VIP
- 【TCP云架构】腾讯云架构高级工程师认证题(附答案).doc VIP
- 软件架构规划与设计.docx VIP
- 2006年考研英语二真题及解析.pdf VIP
- Intel82599ES芯片10G万兆以太网控制器E10G42BTDA归纳.pdf VIP
- 2024学年度人教版四年级数学上册期末测试卷(十四)(可打印,下载可编 完整版.pdf VIP
原创力文档


文档评论(0)