- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
jieba:统计⼀篇⽂章中词语数
1、jieba分词的四种模式
精确模式、全模式、搜索引擎模式、paddle模式
精确模式:把⽂本精确的切分开,不存在冗余单词,适合⽂本分析;
全模式:把⽂本中所有可能的词语都扫描出来,不能解决歧义,有冗余
搜索引擎模式:在精确模式的基础上,对长单词再次切分,提⾼召回率,适⽤于搜索引擎分词
paddle模式:利⽤PaddlePaddle深度学习框架,训练序列标注(双向GRU)⽹络模型实现分词。同时⽀持词性标注。paddle模式需要安装
paddlepaddle-tiny
pipinstallpaddlepaddle-tiny==1.6.1
2、jieba库常⽤函数
函数参数
s:为需要分词的字符串
cut_all:是否采⽤全模式(False情况下为精确模
式)
jieba.cut(s,cut_all=False,HMM=False,use_paddle=False)HMM:是否使⽤HMM模型
use_paddle:是否使⽤paddle模式下的分词模
式
返回Generator类型
搜索引擎模式,参数含义同上,返回Generator
jieba.cut_for_search(s,HMM=False)
类型
jieba.lcut(s,cut_all=False,HMM=False,use_paddle=False)返回⼀个List类型
jieba.lcut_for_search(s,HMM=False)搜索引擎模式,返回List
jieba.add_word(w)向分词词典中增加新词w
新建⾃定义分类器,可⽤于同时使⽤不同词典。
jieba.Tokenizer(dictionary=DEFAULT_DICT)jieba.dt为默认分类器,所有全局分词相关函数
都是该分类器的映射
3、载⼊字典
开发者可以指定⾃⼰⾃定义的词典,以便包含jieba词库没有的词。虽然jieba有新词识别能⼒,但是⾃⾏添加新词可以保证更⾼的正确率。
⽤法:jieba.load_userdict(file_name)#file_name为⽂件类对象或者⾃定义词典的路径
词典格式和dict.txt⼀样,⼀个词占⼀⾏;每⼀⾏分为三部分:词语、词频(可省略)、词性(可省略),⽤空格隔开,顺序不可颠
倒。file_name如果为路径或者⼆进制⽅式打开的⽂件,则⽂件必须为UTF-8编码。
词频省略时使⽤⾃动计算能保证分出改词的词频。
例如:
3.1、调整词典
使⽤add_word(word,freq=None,tag=None)和del_word(word)可以在程序中动态修改词典。
使⽤suggest_freq(segment,true=True)可以⾃动调节单个词语的词频,使其能(或者不能)被分出来。
注意:⾃动计算的词频在使⽤HMM新词发现功能时可能⽆效。
jieba.suggest_freq((中,将),True)
494
#这样“中将”同时出现时,将不会作为⼀个词语,⽽是两个词“中”和将“”
jieba.suggest_freq(台中,True)
6969
台台和和中中同时出现时,将作为⼀个词语“台中”出现
文档评论(0)