掌握pandas cut函数,一键实现数据分类.docx

掌握pandas cut函数,一键实现数据分类.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

掌握pandascut函数,一键实现数据分类

pandas中的cut函数可将一维数据按照给定的区间进行分组,并为每个值分配对应的标签。

其主要功能是将连续的数值数据转化为离散的分组数据,方便进行分析和统计。

1.数据准备

下面的示例中使用的数据采集自王者荣耀比赛的统计数据。

数据下载地址:https://databook.top/。

导入数据:

#2025年世冠比赛选手的数据

fp=rD:\data\player-2025世冠.csv

df=pd.read_csv(fp)

#这里只保留了下面示例中需要的列

df=df.loc[:,[排名,选手,场均经济,场均伤害]]

2.使用示例

每个选手的场均经济和场均伤害是连续分布的数据,为了整体了解所有选手的情况,

可以使用下面的方法将场均经济和场均伤害分类。

2.1.查看数据分布

首先,可以使用直方图的方式看看数据连续分布的情况:

importmatplotlib.pyplotasplt

df.loc[:,[场均经济,场均伤害]].hist()

plt.show()

图中的横轴是经济和伤害的数值,纵轴是选手的数量。

2.2.定制分布参数

从默认的直方图中可以看出大部分选手的场均经济和场均伤害大致在什么范围,

不过,为了更精细的分析,我们可以进一步定义自己的分类范围,看看各个分类范围内的选手数量情况。

比如,我们将场均经济分为3块,分别为低(0~5000),中(5000~10000),高(10000~20000)。

同样,对于场均伤害,也分为3块,分别为低(0~50000),中(50000~100000),高(100000~200000)。

bins1=[0,5000,10000,20000]

bins2=[0,50000,100000,200000]

labels=[低,中,高]

s1=场均经济

s2=场均伤害

df[f{s1}-分类]=pd.cut(df[s1],bins=bins1,labels=labels)

df[f{s2}-分类]=pd.cut(df[s2],bins=bins2,labels=labels)

分类之后,选手被分到3个类别之中,然后再绘制直方图。

df.loc[:,f{s1}-分类].hist()

plt.title(f{s1}-分类)

plt.show()

从这个图看出,大部分选手都是中,高的经济,说明职业选手很重视英雄发育。

df.loc[:,f{s2}-分类].hist()

plt.title(f{s2}-分类)

plt.show()

从图中可以看出,打出高伤害的选手比例并不高,可能职业比赛中,更多的是团队作战。

3.总结

总的来说,cut函数的主要作用是将输入的数值数据(可以是一维数组、Series或DataFrame的列)按照指定的间隔或自定义的区间边界进行划分,并为每个划分后的区间分配一个标签。

这样,原始的连续数据就被转化为了离散的分组数据,每个数据点都被分配到了一个特定的组中,从而方便后续进行分析和统计。

文档评论(0)

158****7369 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档