- 1、本文档共132页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
模块八电商客户消费偏好特征分析Python数据分析与可视化典型项目实战(微课版)
【任务描述】现有3个Excel文件,分别是“df_short.xlsx”(记录“客户消费信息”)、“df_short_buy.xlsx”(记录“客户消费信息”并增加统计数量列)、“df_label.xlsx”(记录。“客户偏好特征”),这些数据是京东电子商务网站74天的交易数据。其中“df_short.xlsx”文件有8列、55148行数据,所有列都不存在数据缺失情况;“df_label.xlsx”文件有21列、49003行数据,仅有“Unnamed:0”“customer_id”“browse_not_buy”“cart_not_buy”“buy_again”这5列无数据缺失情况,有16列数据存在缺失情况。其中列名“Unnamed:0”表示临时列名,暂用“Unnamed:0”表示。针对df_short和df_label两个数据集完成以下主要操作。(1)查看数据集的相关信息。(2)对数据集进行数据预处理。(3)计算客户统计总数量。(4)计算客户消费主要电商指标。(5)统计客户浏览数量与购买数量。【任务8-1】京东客户消费数据预处理与整体消费特征分析
【任务实现】在JupyterNotebook开发环境中创建tc08-01.ipynb,然后在单元格中编写代码并输出对应的结果。【任务8-1】京东客户消费数据预处理与整体消费特征分析
京东客户消费数据预处理与整体消费特征分析1.导入模块导入通用模块的代码详见“本书导学”。data1=pd.read_excel(rdata\df_short.xlsx,parse_dates=[date],dtype={customer_id:str,product_id:str})df_short=data1.copy()2.读取数据读取客户消费信息数据集的代码如下:data2=pd.read_excel(r.\data\df_label.xlsx,dtype={customer_id:str})df_label=data2读取客户偏好特征数据集的代码如下:
京东客户消费数据预处理与整体消费特征分析3.查看数据集df_short的相关信息查看数据集df_short的基本信息df_short.info()查看数据集df_short的大小(维度)print(数据集大小:,df_short.shape)查看数据集df_short的部分数据随机查看数据集的5行数据的代码如下:df_short.sample(5)同时展示前5行和后5行数据的代码如下:pd.concat([df_short.head(),df_short.tail()])
京东客户消费数据预处理与整体消费特征分析查看“date”列的基本信息df_short[date].describe(datetime_is_numeric=True)查看时间范围,并输出起始日期、结束日期及日期相差minDate=df_short[date].min()print(起始日期:,minDate)maxDate=df_short[date].max()print(结束日期:,maxDate)diffData=maxDate-minDateprint(日期相差:,diffData,天)print(时间范围为:{}到{}.format(min(data1.date),max(data1.date)))删除无效字段删除“Unnamed:0”列的代码如下:df_short.drop(df_short.columns[[0]],axis=1,inplace=True)
京东客户消费数据预处理与整体消费特征分析以下代码也能实现删除“Unnamed:0”列的功能:short_df.drop(labels=Unnamed:0,axis=1,inplace=True)df_short=df_short.drop(Unnamed:0,axis=1)deldf_short[Unnamed:0]查看数据集中各列数据的数据类型df_short.dtypes查看是否存在重复记录查看重复记录数量的代码如下:print(数据集中含有%d行重复数据%(df_short.duplicated().sum()))查看重复记录内容的代码如下:df_short[df_short.duplicated()]查看客户ID为“587314”的购买记录,代码如下:df_short[df_short.customer_id==587314]
京东客户
您可能关注的文档
- Python数据分析与可视化典型项目实战(微课版)课件 模块二 天气与空气质量数据分析.pptx
- Python数据分析与可视化典型项目实战(微课版)课件 模块九 广告投放效果分析.pptx
- Python数据分析与可视化典型项目实战(微课版)课件 模块六 订单数据分析.pptx
- Python数据分析与可视化典型项目实战(微课版)课件 模块七 电商客户行为分析.pptx
- Python数据分析与可视化典型项目实战(微课版)课件 模块三 房源数据分析.pptx
- Python数据分析与可视化典型项目实战(微课版)课件 模块十 股票数据分析与股价趋势预测.pptx
- Python数据分析与可视化典型项目实战(微课版)课件 模块四 旅游景点数据分析.pptx
- Python数据分析与可视化典型项目实战(微课版)课件 模块五 商品销量数据分析.pptx
- Python数据分析与可视化典型项目实战(微课版)课件 模块一 人口与 GDP 数据分析.pptx
- 集体婚礼活动策划方案 .pdf
文档评论(0)