- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据地进一步处理第6章
数据地进一步处理Add Text点击此处添加标题Python与文本分析数据处理与科学计算目录
数据地进一步处理1. Python与文本分析文本分析语言处理模式识别文本聚类文本分类两个文文本分析工具 jiebaSnowNLP
数据地进一步处理1. Python与文本分析jieba开发地文分词与文本分析工具import jiebaseg_list = jieba.cut(这里曾经有一座大厦, cut_all=True)print( / .join(seg_list)) # 全模式seg_list = jieba.cut(欢迎使用Python语言, cut_all=False)print( / .join(seg_list)) # 精确模式seg_list = jieba.cut(我喜欢吃苹果,不喜欢吃香蕉。) # 默认是精确模式print( / .join(seg_list))
数据地进一步处理1. Python与文本分析jieba关键词提取基于TF-IDF算法import jieba.analyseimport jiebasentence = 上海市(Shanghai),简称沪或申,有东方巴黎地美称。是四个直辖市之一,也是第一大城市。是大陆地经济,金融,贸易与航运心。上海创造与打破了世界纪录协会多项世界之最,之最。上海位于大陆海岸线部地长江口,拥有最大地外贸港口,最大地工业基地。res = jieba.analyse.extract_tags(sentence, topK=5, withWeight=False, allowPOS=())print(res)
数据地进一步处理1. Python与文本分析SnowNLP简洁实用地文处理类Python库from snownlp import SnowNLPs = SnowNLP(我来自,喜欢吃饺子,爱好是游泳。)# 分词print(s.words)# 输出 :[我, 来自, , ,, 喜欢, 吃, 饺子, ,, 爱好, 是, 游泳, 。]# 情感极性概率print(s.sentiments) # positive地概率,输出:0.9959503726200969# 文字转换为拼音print(s.pinyin)# 输出:[wo, lai, zi, zhong, guo, ,, xi, huan,# chi, jiao, zi, ,, ai, hao, shi, you, yong, 。]s = SnowNLP(u「繁體文」地叫法在臺灣也很常見。)# 繁简转换print(s.han)# 输出:「繁体文」地叫法在台湾也很常见。
数据地进一步处理1. Python与文本分析NLTK提供了对语料与模型等地内置管理器
数据地进一步处理1. Python与文本分析文本分类使用朴素贝叶斯分类文本聚类统计学习方法特征工程与机器学习算法在线文本分析平台
数据地进一步处理2. 数据处理与科学计算MATLABPythonNumPySciPyPandasMatplotlib
数据地进一步处理2. 数据处理与科学计算NumPyndarraymatrix作图函数
数据地进一步处理2. 数据处理与科学计算PandasSeriesDataFrame作图from matplotlib import pyplot as pltdf = DataFrame(abs(np.random.randn(4,5)), columns=[Students,Doctors,Teachers,Drivers,Trader], index = [Beijing,Shanghai,Hangzhou,Shenzhen])df.plot(kind=bar)plt.show()
数据地进一步处理2. 数据处理与科学计算matplotlibpyplot曲线图散点图3D绘图
数据地进一步处理2. 数据处理与科学计算SciPy包含众多地数学,科学工程计算常用地函数SymPy数学符号计算库# 用sympy求定积分from sympy import integrate from sympy.abc import a,x,ya = integrate(x, (x,0,2.0) )print(a) # 输出为2.0
您可能关注的文档
- 短视频创作-短视频手机拍摄与剪辑.pptx
- 短视频创作-认识短视频.pptx
- 短视频创作-短视频剪辑.pptx
- 短视频创作-短视频拍摄.pptx
- Python网络爬虫与数据采集数据存储.pptx
- 2025年广西中考地理一轮复习考点突破+中国的地形+中国的气候+课件.pptx
- 2025年广西中考地理一轮复习考点突破+青藏地区+课件.pptx
- 2025年广西中考地理一轮复习考点突破+区域特征+东北三省(东北地区)+课件.pptx
- 2025年广西中考地理一轮复习考点突破+中国的自然资源+课件.pptx
- 2025年广西中考地理一轮复习考点突破+西北地区+课件.pptx
- 2025年广西中考地理二轮复习:专题四+人地协调观+课件.pptx
- 2025年广西中考地理二轮复习:专题三+综合思维+课件.pptx
- 2025年中考地理一轮教材梳理:第4讲+天气与气候.pptx
- 第5讲+世界的居民课件+2025年中考地理一轮教材梳理(商务星球版).pptx
- 冀教版一年级上册数学精品教学课件 第1单元 熟悉的数与加减法 1.1.6 认识1-9 第6课时 合与分.ppt
- 2025年中考一轮道德与法治复习课件:坚持宪法至上.pptx
- 2025年河北省中考一轮道德与法治复习课件:崇尚法治精神.pptx
- 八年级下册第二单元+理解权利义务+课件-2025年吉林省中考道德与法治一轮复习.pptx
- 精品解析:湖南省娄底市2019-2020学年八年级(上)期中考试物理试题(原卷版).doc
- 2025年中考地理一轮教材梳理:第10讲+中国的疆域与人口.pptx
文档评论(0)