电商交易数据分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
电商交易数据分析 ⼀、数据描述 1.1数据集描述 数据集为某电商平台2016年⼀整年的交易数据,数据包含104557条数据,10个字段。 1.2数据展 ⼆、问题提出 1、各个⽉的订单数是否均衡? 2、在不同价格段之间的商品销售情况? 3、在不同时间段下单情况如何? 三、数据清洗和预处理 3.1缺失值处理 df.isnull().sum(axis=0) # 查看缺失值 orderId 0 userId 0 productId 0 cityId 0 price 0 payMoney 0 channelId 8 deviceType 0 createTime 0 payTime 0 deviceName 87 dtype: int64 发现 deviceName 有87个缺失值,⽽ deviceType 没有缺失值,看⼀下 deviceType 的取值分布: df[deviceType].value_counts() 2 52448 3 42948 1 7054 4 2017 6 87 5 3 Name: deviceType, dtype: int64 发现这⼀列有类别为6的值,数量刚好为87,⽽设备信息⽂件并没有6这个类别,怀疑是信息填错了,将其重新归类为5,同时将 deviceName 的缺失值⽤other进⾏填充: df[deviceType].replace({6: 5}, inplace = True) df.fillna({deviceName : other}, inplace=True) 还有⼀列有8个缺失值,数据占⽐较少,我们直接将其删除: df.dropna(inplace=True) df.isnull().sum(axis=0) orderId 0 userId 0 productId 0 cityId 0 price 0 payMoney 0 channelId 0 deviceType 0 createTime 0 payTime 0 deviceName 0 dtype: int64 删除缺失值之后,再来看⼀下数据集的⼤⼩: df.shape (104549, 11) 3.2异常值处 可以通过数据概况初步探索异常值: df.describe() 根据上⾯的结果可以看出 productId 最⼩值是0,payMoney 有负值,这明显是不合理的,我们需要对其进⾏处理。 ⾸先看看 productId 值为0的数量,数量较少的话直接删除: df.productId[(df.productId == 0)].size 177 # 177条记录,数量不多,直接删掉 df.drop(index=df[df.productId==0].index, inplace=True) 对于 payMoney 存在负值的记录,直接将其删除: df.productId[(df.payMoney 0)].size 6 # 只有6条记录,直接删除 df.drop(index=df[df.payMoney 0].index, inplace=True) 再看⼀下这两列值的情况: df[[ productId, payMoney]].describe() productId payMoney count 104366.000000 1.043660e+05 mean 505.417626 8.690449e+04 std 287.629531 9.075357e+04 min 1.000000 0.000000e+00 25% 255.000000 3.360000e+04 50% 508.000000 5.500000e+04 75% 759.000000 1.040000e+05 max 1000.000000 2.294200e+06 四、各变量相关性数据分析与可视化 4.1总体情况分析

文档评论(0)

千帆起航 + 关注
实名认证
文档贡献者

走过路过,不要错过!

1亿VIP精品文档

相关文档