默认情况下jieba库使用自带的词典进行分词Jieba库允许使用自定义的词典以便包含默认词库里没有的词虽然jieba库有新词识别能力但是自行添加新词可以保证更高的分词正确率词典是一个文本文件文件必须为UTF8编码词典中一个词占一行每一行分三部分词语词频可省略和词性可省略用空格隔开顺序不可颠倒词频省略时使用自动计算的能保证分出该词的词频示例代码如下宣传办5n终生学习主题活动38课件讲解.pptx

默认情况下jieba库使用自带的词典进行分词Jieba库允许使用自定义的词典以便包含默认词库里没有的词虽然jieba库有新词识别能力但是自行添加新词可以保证更高的分词正确率词典是一个文本文件文件必须为UTF8编码词典中一个词占一行每一行分三部分词语词频可省略和词性可省略用空格隔开顺序不可颠倒词频省略时使用自动计算的能保证分出该词的词频示例代码如下宣传办5n终生学习主题活动38课件讲解.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

9.3.3使用词典默认情况下,jieba库使用自带的词典进行分词。Jieba库允许使用自定义的词典,以便包含默认词库里没有的词。虽然jieba库有新词识别能力,但是自行添加新词可以保证更高的分词正确率。词典是一个文本文件,文件必须为UTF-8编码。词典中一个词占一行,每一行分三部分:词语、词频(可省略)和词性(可省略),用空格隔开,顺序不可颠倒。词频省略时使用自动计算的能保证分出该词的词频。示例代码如下。宣传办5n终生学习主题活动

jieba.load_userdict(file_name)函数用于加载自定义字典,参数file_name为文件类对象或自定义词典的路径。示例代码如下。s

您可能关注的文档

文档评论(0)

vermonth155-2娟 + 关注
实名认证
内容提供者

专注ppt课件

版权声明书
用户编号:8046135067000064

1亿VIP精品文档

相关文档