- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电商交易数据分析
⼀、数据描述
1.1数据集描述
数据集为某电商平台2016年⼀整年的交易数据,数据包含104557条数据,10个字段。
1.2数据展
⼆、问题提出
1、各个⽉的订单数是否均衡?
2、在不同价格段之间的商品销售情况?
3、在不同时间段下单情况如何?
三、数据清洗和预处理
3.1缺失值处理
df.isnull().sum(axis=0) # 查看缺失值
orderId 0
userId 0
productId 0
cityId 0
price 0
payMoney 0
channelId 8
deviceType 0
createTime 0
payTime 0
deviceName 87
dtype: int64
发现 deviceName 有87个缺失值,⽽ deviceType 没有缺失值,看⼀下 deviceType 的取值分布:
df[deviceType].value_counts()
2 52448
3 42948
1 7054
4 2017
6 87
5 3
Name: deviceType, dtype: int64
发现这⼀列有类别为6的值,数量刚好为87,⽽设备信息⽂件并没有6这个类别,怀疑是信息填错了,将其重新归类为5,同时将
deviceName 的缺失值⽤other进⾏填充:
df[deviceType].replace({6: 5}, inplace = True)
df.fillna({deviceName : other}, inplace=True)
还有⼀列有8个缺失值,数据占⽐较少,我们直接将其删除:
df.dropna(inplace=True)
df.isnull().sum(axis=0)
orderId 0
userId 0
productId 0
cityId 0
price 0
payMoney 0
channelId 0
deviceType 0
createTime 0
payTime 0
deviceName 0
dtype: int64
删除缺失值之后,再来看⼀下数据集的⼤⼩:
df.shape
(104549, 11)
3.2异常值处
可以通过数据概况初步探索异常值:
df.describe()
根据上⾯的结果可以看出 productId 最⼩值是0,payMoney 有负值,这明显是不合理的,我们需要对其进⾏处理。
⾸先看看 productId 值为0的数量,数量较少的话直接删除:
df.productId[(df.productId == 0)].size
177
# 177条记录,数量不多,直接删掉
df.drop(index=df[df.productId==0].index, inplace=True)
对于 payMoney 存在负值的记录,直接将其删除:
df.productId[(df.payMoney 0)].size
6
# 只有6条记录,直接删除
df.drop(index=df[df.payMoney 0].index, inplace=True)
再看⼀下这两列值的情况:
df[[ productId, payMoney]].describe()
productId payMoney
count 104366.000000 1.043660e+05
mean 505.417626 8.690449e+04
std 287.629531 9.075357e+04
min 1.000000 0.000000e+00
25% 255.000000 3.360000e+04
50% 508.000000 5.500000e+04
75% 759.000000 1.040000e+05
max 1000.000000 2.294200e+06
四、各变量相关性数据分析与可视化
4.1总体情况分析
文档评论(0)