Python程序设计基础 课件 第9章 第三方库.pptx

Python程序设计基础 课件 第9章 第三方库.pptx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第9章Python第三方库python程序设计基础教程

9.1第三方库概述本节主要介绍Python的第三方库的用法,包括jieba库和wordcloud库的用法简介,jieba库是通过将待处理内容与与分词词库进行比对,按指定策略获得包含的分词。worcloud库是一个优秀的词云展示第三方库。

9.2第三方库的获取和安装本节主要介绍的第三方库有jieba库以及wordcloud库,安装方法有两种。(1)安装包模式安装:在Windows系统环境下,从对应的jieba和wordcloud库的官方网站下载安装包,自动安装即可。(2)在线安装:通过pip3语句进行安装pip3install+‘对应第三方库的名字’

9.2第三方库的获取和安装(2)在线安装:通过pip3语句进行安装有时在线镜像源安装可能会较缓慢,可以采用清华大学镜像源,安装语句如下:pip3install+’第三方库的名字’-i+‘清华大学镜像源’?清华大学镜像:/simple?阿里云镜像:/pypi/simple/?中国科技大学镜像:/simple/?华中理工大学镜像:/?山东理工大学镜像:/?豆瓣镜像:/simple/

9.3jieba库及其使用本节主要介绍的jieba库是一个第三方中文分词主要功能:利用一个中文词库确定汉字之间的关联概率,汉字间概率大的组成词组,形成分词结果。通过命令行下运行一下命令进行安装jieba.lcut(sentence,cut_all=true)全模式,返回语句sentence中所有可以成词的词语,速度非常快,但是不能解决歧义。jieba.lcut(sentence)精确模式,试图将语句sentence最精确地切开,适合文本分析。jieba.lcut_for_search(sentence)搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。pip3installjieba

9.3jieba库及其使用jieba库常用方法方法含义jieba.lcut(sentence)精确模式,将语句划分开,返回值为列表类型jieba.lcut(sentence,cut_all=true)全模式,输出文本sentence中所有可能单词,返回值为列表类型jieba.lcut_for_search(sentence)搜索引擎模式,适合搜索引擎建立索引的分词结果,返回值为列表类型jieba.cut(sentence)精确模式,将语句划分开,返回值为可迭代的数据类型jieba.cut(sentence,cut_all=true)全模式,输出文本sentence中所有可能单词,返回值为可迭代的数据类型jieba.cut_for_search(sentence)搜索引擎模式,建立适合搜索引擎检索的分词结果,返回值为可迭代的数据类型jieba.add_word(sentence)向分词词典中添加新词

9.3jieba库及其使用例9-1三种模式的应用。importjiebaseg_list=jieba.cut(《生死疲劳》是中国当代作家莫言创作的长篇小说,cut_all=True)print(fullpattern:+,.join(seg_list)) ##全模式seg_list=jieba.cut(《生死疲劳》是中国当代作家莫言创作的长篇小说)print(accuratepattern:+,.join(seg_list)) ##精确模式seg_list=jieba.cut_for_search(《生死疲劳》是中国当代作家莫言创作的长篇小说) ##搜索引擎模式print(searchmodel:+,.join(seg_list))

9.3jieba库及其使用例9-2统计唐诗三百首中的词语出现次数。编程思路:词频分析,就是对某一或某些给定的词语在某文件中出现的次数进行统计分析。中文词频分析的基本原理是利用jieba库对文章进行分析,统计每个词出现的个数,就是建立词和出现次数的字典。然后按出现的次数从高到底排序,根据出现频率高的词来分析文章。importjieba#首先要保证所打开的文件是utf-8编码,如果不是,可使用记事本另存为utf-8编码#UTF-8是一种面向互联网传输出现的变长(1-4字节)的字符UNICODE编码,它兼容ASCII码,即英文字符1个字节,汉字占3个字节。withopen(唐诗三百首.txt,r,encoding=utf-8)asfr: txt=fr.read();words=jieba.lcut(txt)#精确模式分析,返回一个列表类型counts

文档评论(0)

balala11 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档