Python程序设计基础课件第9章第三方库.pptx

下载文档

0
0
约1.15万字
约 23页
2024-12-15 发布于山东
举报
版权申诉
保障服务

Python程序设计基础课件第9章第三方库.pptx

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第9章Python第三方库python程序设计基础教程

9.1第三方库概述本节主要介绍Python的第三方库的用法，包括jieba库和wordcloud库的用法简介，jieba库是通过将待处理内容与与分词词库进行比对，按指定策略获得包含的分词。worcloud库是一个优秀的词云展示第三方库。

9.2第三方库的获取和安装本节主要介绍的第三方库有jieba库以及wordcloud库，安装方法有两种。（1）安装包模式安装：在Windows系统环境下，从对应的jieba和wordcloud库的官方网站下载安装包，自动安装即可。（2）在线安装：通过pip3语句进行安装pip3install+‘对应第三方库的名字’

9.2第三方库的获取和安装（2）在线安装：通过pip3语句进行安装有时在线镜像源安装可能会较缓慢，可以采用清华大学镜像源，安装语句如下：pip3install+’第三方库的名字’-i+‘清华大学镜像源’?清华大学镜像：/simple?阿里云镜像：/pypi/simple/?中国科技大学镜像：/simple/?华中理工大学镜像：/?山东理工大学镜像：/?豆瓣镜像：/simple/

9.3jieba库及其使用本节主要介绍的jieba库是一个第三方中文分词主要功能：利用一个中文词库确定汉字之间的关联概率，汉字间概率大的组成词组，形成分词结果。通过命令行下运行一下命令进行安装jieba.lcut(sentence,cut_all=true)全模式，返回语句sentence中所有可以成词的词语，速度非常快，但是不能解决歧义。jieba.lcut(sentence)精确模式，试图将语句sentence最精确地切开，适合文本分析。jieba.lcut_for_search(sentence)搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。pip3installjieba

9.3jieba库及其使用jieba库常用方法方法含义jieba.lcut(sentence)精确模式，将语句划分开,返回值为列表类型jieba.lcut(sentence,cut_all=true)全模式，输出文本sentence中所有可能单词,返回值为列表类型jieba.lcut_for_search(sentence)搜索引擎模式，适合搜索引擎建立索引的分词结果,返回值为列表类型jieba.cut(sentence)精确模式，将语句划分开,返回值为可迭代的数据类型jieba.cut(sentence,cut_all=true)全模式，输出文本sentence中所有可能单词,返回值为可迭代的数据类型jieba.cut_for_search(sentence)搜索引擎模式，建立适合搜索引擎检索的分词结果,返回值为可迭代的数据类型jieba.add_word(sentence)向分词词典中添加新词

9.3jieba库及其使用例9-1三种模式的应用。importjiebaseg_list=jieba.cut(《生死疲劳》是中国当代作家莫言创作的长篇小说,cut_all=True)print(fullpattern:+,.join(seg_list)) ##全模式seg_list=jieba.cut(《生死疲劳》是中国当代作家莫言创作的长篇小说)print(accuratepattern:+,.join(seg_list)) ##精确模式seg_list=jieba.cut_for_search(《生死疲劳》是中国当代作家莫言创作的长篇小说) ##搜索引擎模式print(searchmodel:+,.join(seg_list))

9.3jieba库及其使用例9-2统计唐诗三百首中的词语出现次数。编程思路：词频分析，就是对某一或某些给定的词语在某文件中出现的次数进行统计分析。中文词频分析的基本原理是利用jieba库对文章进行分析，统计每个词出现的个数，就是建立词和出现次数的字典。然后按出现的次数从高到底排序，根据出现频率高的词来分析文章。importjieba#首先要保证所打开的文件是utf-8编码，如果不是，可使用记事本另存为utf-8编码#UTF-8是一种面向互联网传输出现的变长（1-4字节）的字符UNICODE编码，它兼容ASCII码，即英文字符1个字节，汉字占3个字节。withopen(唐诗三百首.txt,r,encoding=utf-8)asfr: txt=fr.read();words=jieba.lcut(txt)#精确模式分析，返回一个列表类型counts

您可能关注的文档

文档评论（0）

balala11 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

Python程序设计基础课件第9章第三方库.pptx