jieba库分词功能支持3种模式精确模式将句子精确地按顺序切分为词语适合文本分析全模式把句子中所有可以成词的词语都切分出来但是不能解决歧义搜索引擎模式在精确模式的基础上对长词再次切分提高召回率适合用于搜索引擎分词95课件讲解.pptxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
9.3.2使用分词功能jieba库分词功能支持3种模式。精确模式:将句子精确地按顺序切分为词语,适合文本分析。全模式:把句子中所有可以成词的词语都切分出来,但是不能解决歧义。搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
jieba库提供4个分词函数:cut(str,cut_all,HMM)、cut_for_search(str,HMM)lcut(str,cut_all,HMM)、lcut_for_search(str,HMM)参数str为需要分词的字符串,str可以是Unicode、UTF-8或GBK字符串。注意:不建议直接输入GBK字符串,可能遇到无法预料的错误。参数cut_all为False时采用精确模式分词,cut_all为True时采用全模式分词。参数HMM为True时使用HMM模型,为False时不使用。HMM模型指隐马尔可夫模型(HiddenMarkovModel),是一个统计模型。cut()和lcut()在参数cut_all值为False时采用精确模式分词,值为True时采用全模式分词cut_for_search()和lcut_for_search()采用搜索引擎模式进行分词。cut()和cut_for_search()返回一个可迭代的generator对象lcut()和lcut_for_search()返回一个list对象。
importjieba #导入jieba库str=Python已成为最受欢迎的程序设计语言result=jieba.cut(str) #默认使用精确模式print(,.join(result)) #用逗号连接各个词语,再输出Python,已,成为,最,受欢迎,的,程序设计,语言result=jieba.cut(str,cut_all=True) #使用全模式print(,.join(result))Python,已成,成为,最,受欢迎,欢迎,的,程序,程序设计,设计,语言
result=jieba.cut_for_search(str) #使用搜索引擎模式print(,.join(result))Python,已,成为,最,欢迎,受欢迎,的,程序,设计,程序设计,语言result=jieba.cut(str) #返回generator对象forainresult: #迭代generator对象...print(a,end=,)...Python,已,成为,最,受欢迎,的,程序设计,语言,jieba.lcut(str) #返回列表[Python,已,成为,最,受欢迎,的,程序设计,语言]jieba.lcut_for_search(str) #返回列表[Python,已,成为,最,欢迎,受欢迎,的,程序,设计,程序设计,语言]
您可能关注的文档
- Internet概述及应用金导航27课件讲解.pptx
- Internet在日常生活中的应用金导航11课件讲解.pptx
- IPC航空维修工程英语73课件讲解.pptx
- IPv6地址可以分为单播多播任播和特殊地址73课件讲解.pptx
- IPv6地址空间的分配情况RFC4291中给出了IPv6地址空间描述内容包括地址分配的情况前缀所占地址空间的比例其中超过80的地址空间是未分配的49课件讲解.pptx
- IPv6分组各部分的组成IPv6分组由固定首部和有效荷载组成有效荷载又包括扩展首部ExtensionHeader和数据部分22课件讲解.pptx
- IPv6分组中下一个首部字段的可能取值212IPv6协议与IPv4协议的比较34课件讲解.pptx
- IPv6可汇聚全球单播地址的分级结构把IPv6可汇聚全球单播地址看做具有多个前缀的分级标识每一个前缀描述和定义一个层次30课件讲解.pptx
- IPv6特殊用途地址的标识格式未指定地址不分配给任何接口用于指定给没有IPv6地址的设备以及接口在链路本地地址的唯一性尚未被确认的情况54课件讲解.pptx
- IPv6中子网路由器任播地址格式RFC4291定义了子网路由器任播地址的格式该地址基本上就像一个通常的单播地址不同之处只是其前缀指定了子网和一个全0的标识符地址中的子网前缀部分被设置为所用到子网前缀的值地址的其余位设置为0发送到这个地址上的分组会被发送到该子网中的一个路由器上67课件讲解.pptx
最近下载
- 昆西37~160KW空压机样本.pdf VIP
- MEDICA-EQUAsmart机器简介课件.ppt VIP
- 电解铝行业较大危险因素辨识与防范指导手册.docx
- 2024年人教版历史7年级上册全册课件(新版教材).ppt
- 《临床营养学》Word版-急诊临床营养学教材--目录.docx VIP
- 种植三方合同协议.docx VIP
- 2026-2030中国无人机航空电子行业发展形势与前景动态预测报告.docx
- (完整版)青少版新概念入门级A期末测试卷.docx VIP
- 2025年一级建造师考试真题及答案《市政实务》.docx VIP
- 2026人教版六年级上册数学期末考试试卷(3套含答案解析).pdf
原创力文档


文档评论(0)