- 10
- 0
- 约小于1千字
- 约 16页
- 2022-09-30 发布于安徽
- 举报
jieba库是一款优秀的Python第三方中文分词函数库,具有分词、添加用户词典、提取关键词和词性标注等功能;
对于一段英文文本,如果希望提取其中的的单词,只需要
使用字符串处理的split()方法即可实现;
对于一段中文文本,要想提取其中的中文单词却是十分困
难的事情,因为中文单词之间缺少分隔符;
在联网状态下,在命令行下输入 pip install jieba 进行安装,
安装完成后,会提示安装成功。
jieba库支持3种分词模式:精确模式、全模式和搜索引擎模式。
精确模式:试图将语句最精确的切分,不存在冗余数据,适合做文本分析;
全模式:将语句中所有可能是词的词语都切分出来,速度很快,但是存在冗余数据,不能解决歧义问题;
搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,适合用于搜索引擎。
jieba库的常用方法, 如下表所示:
例7-5:编写程序,演示 jieba 库的常用方法。
例7-5:编写程序,演示 jieba 库的常用方法。
例7-5:编写程序,演示 jieba 库的常用方法。
jieba库的分词原理是,利用一个中文词库Prefix dict,将待分词的文本与预置词库进行比对,找出基于词频的最大切分组合;
通过添加单词的做法,强制改变freq的值,确保单词能被切出。
对于文本s1和s2,分词的准确率还是非常高的,对于文本s3, 分词结
您可能关注的文档
最近下载
- 2024年中国协同办公平台行业研究报告.pdf VIP
- 标准图集-12J003-室外工程.pdf VIP
- 初一下册地理测试卷济南版.pdf VIP
- 2023吉林大学白求恩第一医院病案室招聘笔试备考试题及答案解析.docx VIP
- DB11∕T 1598.3-2019 居家养老服务规范 第3部分:助医服务.docx VIP
- 2025(统编版)语文五年级下册第六单元解析+任务目标+大单元教学设计 .pdf VIP
- (高清版)B-T 1972.1-2023 碟形弹簧 第1部分:计算.pdf VIP
- 2019年同等学力申硕工商管理综合考试真题及标准答案.doc VIP
- 江苏省连云港高级中学等校2024-2025学年高二下学期4月期中地理试题(原卷版+解析版).docx VIP
- 《汽车用电点火具要求和试验方法》.pdf VIP
原创力文档

文档评论(0)