jieba：统计一篇文章中词语数.pdf

下载文档

4
0
约5.4千字
约 5页
2024-01-02 发布于宁夏
举报
版权申诉
保障服务

jieba：统计一篇文章中词语数.pdf

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

jieba：统计⼀篇⽂章中词语数

1、jieba分词的四种模式

精确模式、全模式、搜索引擎模式、paddle模式

精确模式：把⽂本精确的切分开，不存在冗余单词，适合⽂本分析；

全模式：把⽂本中所有可能的词语都扫描出来，不能解决歧义，有冗余

搜索引擎模式：在精确模式的基础上，对长单词再次切分，提⾼召回率，适⽤于搜索引擎分词

paddle模式：利⽤PaddlePaddle深度学习框架，训练序列标注（双向GRU）⽹络模型实现分词。同时⽀持词性标注。paddle模式需要安装

paddlepaddle-tiny

pipinstallpaddlepaddle-tiny==1.6.1

2、jieba库常⽤函数

函数参数

s:为需要分词的字符串

cut_all：是否采⽤全模式(False情况下为精确模

式)

jieba.cut(s,cut_all=False,HMM=False,use_paddle=False)HMM：是否使⽤HMM模型

use_paddle：是否使⽤paddle模式下的分词模

式

返回Generator类型

搜索引擎模式，参数含义同上，返回Generator

jieba.cut_for_search(s,HMM=False)

类型

jieba.lcut(s,cut_all=False,HMM=False,use_paddle=False)返回⼀个List类型

jieba.lcut_for_search(s,HMM=False)搜索引擎模式，返回List

jieba.add_word(w)向分词词典中增加新词w

新建⾃定义分类器，可⽤于同时使⽤不同词典。

jieba.Tokenizer(dictionary=DEFAULT_DICT)jieba.dt为默认分类器，所有全局分词相关函数

都是该分类器的映射

3、载⼊字典

开发者可以指定⾃⼰⾃定义的词典，以便包含jieba词库没有的词。虽然jieba有新词识别能⼒，但是⾃⾏添加新词可以保证更⾼的正确率。

⽤法：jieba.load_userdict(file_name)#file_name为⽂件类对象或者⾃定义词典的路径

词典格式和dict.txt⼀样，⼀个词占⼀⾏；每⼀⾏分为三部分：词语、词频（可省略）、词性（可省略），⽤空格隔开，顺序不可颠

倒。file_name如果为路径或者⼆进制⽅式打开的⽂件，则⽂件必须为UTF-8编码。

词频省略时使⽤⾃动计算能保证分出改词的词频。

例如：

3.1、调整词典

使⽤add_word(word,freq=None,tag=None)和del_word(word)可以在程序中动态修改词典。

使⽤suggest_freq(segment，true=True)可以⾃动调节单个词语的词频，使其能（或者不能）被分出来。

注意：⾃动计算的词频在使⽤HMM新词发现功能时可能⽆效。

jieba.suggest_freq((中,将),True)

494

#这样“中将”同时出现时，将不会作为⼀个词语，⽽是两个词“中”和将“”

jieba.suggest_freq(台中,True)

6969

台台和和中中同时出现时，将作为⼀个词语“台中”出现

您可能关注的文档

文档评论（0）

单元金卷 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

jieba：统计一篇文章中词语数.pdf