数据分析中最常用、最好用的20个Python库分享.docx

数据分析中最常用、最好用的20个Python库分享.docx

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

??

?

??

数据分析中最常用、最好用的20个Python库分享

?

??

?

?

?

?

?

?

?

???

?

?

?

?

?

?

?

【导读】Python在解决数据科学任务和挑战方面处于领先地位。而一些方便易用的库则帮助了开发人员高效开发。在这里我们整理了20个在深度学习、数据分析中最常用、最好用的Python库,供大家一起学习。

作者|ActiveWizards

编译|专知

整理|Yingying,李大囧

核心库与统计

NumPy

我们从科学应用程序库开始说起,NumPy是该领域的主要软件包之一。它旨在处理大型多维数组和矩阵,并且广泛的高级数学函数和实现的方法集合,使得可以使用这些对象执行各种操作。

在这一年中,NumPy有很多更新。除了错误修复和兼容性问题之外,关键更新还包括NumPy对象的打印格式。此外,某些函数现在可以处理Python中可用的任何编码的文件。

SciPy

另一个科学计算核心库是SciPy。它基于NumPy,并扩展了其功能。SciPy主数据结构又是一个多维数组,由Numpy实现。该软件包包含有助于解决线性代数,概率论,积分计算和更多任务的工具。

SciPy可以适配不同的操作系统。这一年,Scipy带来了许多函数的更新,尤其是优化器也更新了。此外,封装了许多新的BLAS和LAPACK函数。

Pandas

Pandas提供了高级数据结构和各种分析工具。该软件包的一大特色是能够将相当复杂的数据操作转换为一个或两个命令。Pandas包含许多用于分组,过滤和组合数据的内置方法,以及时间序列功能。

Pandas在这一年的更新包括数百个新功能,bug修复和API的更改。

StatsModels

Statsmodels是一个统用于统计数据分析的方法,例如统计模型估计,执行统计测试等。在它的帮助下,您可以实现许多机器学习方法。

这个库在不停的更新。今年带来了时间序列改进和新的计数模型,即GeneralizedPoisson,零膨胀模型和NegativeBinomialP,以及新的多变量方法-因子分析,MANOVA和ANOVA中的重复测量。

可视化

Matplotlib

Matplotlib是一个用于创建二维图表和图形的低级库。借助它的帮助,您可以构建各种图表,从直方图和散点图到非笛卡尔坐标图。此外,许多流行的绘图库被设计为与matplotlib一起使用。

颜色,尺寸,字体,图例的样式等都有变化。比如轴图例的自动对齐,和更友好的配色。

Seaborn

Seaborn本质上是基于matplotlib库的更高级别的API。它包含有丰富的可视化图库,包括时间序列,联合图和小提琴图(展示数据密度分布)等复杂类型。

seaborn更新主要包括bug修复。此外,FacetGrid或PairGrid与增强的交互式matplotlib后端之间的兼容性有所改进,为可视化添加了参数和选项。

Plotly

Plotly是一个流行的库,可以让您轻松地构建复杂的图形。该软件包适用于交互式Web应用程序。其可视化效果包括轮廓图形,三元图和3D图表。

今年该库的更新包括对“多链接视图”以及动画和串扰集成的支持。

Bokeh

Bokeh库使用JavaScript小部件在浏览器中创建交互式和可伸缩的可视化。该库提供了多种图形,样式及链接图形式的交互能力,定义回调以及更多有用的功能。

Bokeh可以提供改进的交互式功能,例如分类刻度标签的旋转,以及小缩放工具和自定义工具提示字段增强功能。

Pydot

Pydot是Graphviz的一个接口,用纯Python编写。在它的帮助下,可以显示图形的结构,这在构建神经网络和基于决策树的算法时会经常用到。

机器学习

Scikit-learn

这个基于NumPy和SciPy的Python模块是处理数据的最佳库之一。它为许多标准机器学习和数据挖掘任务提供算法,例如聚类,回归,分类,降维和模型选择。

今年这个库的更新包括:修改交叉验证,提供了使用多个指标的功能;最近邻和逻辑回归等几种训练方法有一些小的改进。

XGBoost/LightGBM/CatBoost

Boosting是最流行的机器学习算法之一,其在于构建基本模型的集合,即决策树。因此,有专门的库设计用于快速方便地实现该方法。XGBoost,LightGBM和CatBoost值得特别关注。这些库提供高度优化,可扩展和快速的梯度增强实现,这使得它们在数据科学家和Kaggle竞赛中非常受欢迎。

Eli5

通常,机器学习模型预测的结果并不完全清楚,而eli5库有助与解决问题。它是一个可视化调试机器学习模型的包,并逐步跟踪算法的工作过程。它可与scikit-learn,XGBoost,LightGBM,lightning和s

文档评论(0)

139****2257 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档