网站大量收购独家精品文档,联系QQ:2885784924

jieba:统计一篇文章中词语数.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

jieba:统计⼀篇⽂章中词语数

1、jieba分词的四种模式

精确模式、全模式、搜索引擎模式、paddle模式

精确模式:把⽂本精确的切分开,不存在冗余单词,适合⽂本分析;

全模式:把⽂本中所有可能的词语都扫描出来,不能解决歧义,有冗余

搜索引擎模式:在精确模式的基础上,对长单词再次切分,提⾼召回率,适⽤于搜索引擎分词

paddle模式:利⽤PaddlePaddle深度学习框架,训练序列标注(双向GRU)⽹络模型实现分词。同时⽀持词性标注。paddle模式需要安装

paddlepaddle-tiny

pipinstallpaddlepaddle-tiny==1.6.1

2、jieba库常⽤函数

函数参数

s:为需要分词的字符串

cut_all:是否采⽤全模式(False情况下为精确模

式)

jieba.cut(s,cut_all=False,HMM=False,use_paddle=False)HMM:是否使⽤HMM模型

use_paddle:是否使⽤paddle模式下的分词模

返回Generator类型

搜索引擎模式,参数含义同上,返回Generator

jieba.cut_for_search(s,HMM=False)

类型

jieba.lcut(s,cut_all=False,HMM=False,use_paddle=False)返回⼀个List类型

jieba.lcut_for_search(s,HMM=False)搜索引擎模式,返回List

jieba.add_word(w)向分词词典中增加新词w

新建⾃定义分类器,可⽤于同时使⽤不同词典。

jieba.Tokenizer(dictionary=DEFAULT_DICT)jieba.dt为默认分类器,所有全局分词相关函数

都是该分类器的映射

3、载⼊字典

开发者可以指定⾃⼰⾃定义的词典,以便包含jieba词库没有的词。虽然jieba有新词识别能⼒,但是⾃⾏添加新词可以保证更⾼的正确率。

⽤法:jieba.load_userdict(file_name)#file_name为⽂件类对象或者⾃定义词典的路径

词典格式和dict.txt⼀样,⼀个词占⼀⾏;每⼀⾏分为三部分:词语、词频(可省略)、词性(可省略),⽤空格隔开,顺序不可颠

倒。file_name如果为路径或者⼆进制⽅式打开的⽂件,则⽂件必须为UTF-8编码。

词频省略时使⽤⾃动计算能保证分出改词的词频。

例如:

3.1、调整词典

使⽤add_word(word,freq=None,tag=None)和del_word(word)可以在程序中动态修改词典。

使⽤suggest_freq(segment,true=True)可以⾃动调节单个词语的词频,使其能(或者不能)被分出来。

注意:⾃动计算的词频在使⽤HMM新词发现功能时可能⽆效。

jieba.suggest_freq((中,将),True)

494

#这样“中将”同时出现时,将不会作为⼀个词语,⽽是两个词“中”和将“”

jieba.suggest_freq(台中,True)

6969

台台和和中中同时出现时,将作为⼀个词语“台中”出现

文档评论(0)

单元金卷 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档