网站大量收购闲置独家精品文档,联系QQ:2885784924

《数据挖掘与机器学习》 课件4.1.3 处理电商平台用户行为数据.pptx

《数据挖掘与机器学习》 课件4.1.3 处理电商平台用户行为数据.pptx

  1. 1、本文档共19页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

处理电商平台运输行为数据电商平台运输行为预测——逻辑回归

任务描述某电商平台需要对该平台的运输行为进行分析,并预测运输行为是否会按时到达。本任务需要对这些数据进行处理和分析,以帮助该电商平台更好地了解运输行为,并优化运输策略,提高客户满意度。在处理敏感的电商平台用户数据时,需要特别关注网络信息安全问题。在数据预处理过程中,应当采取措施保证用户数据的机密性、完整性和可用性。本任务的目标是对原始数据进行数据预处理与探索,包括数据的哑变量处理和属性构造。

任务要求探索电商平台运输行为数据。对性别变量进行哑变量处理。构造总成本的特征。

读取电商平台运输行为数据哑变量处理属性构造

读取电商平台运输行为数据读取电商平台运输行为数据主要通过以下6个步骤实现。查看电商平台运输行为数据读取数据查看数据维度查看数据类型分析产品重要程度分析是否按时到达

查看电商平台运输行为数据考虑到电商平台用户数据的敏感性和网络信息安全问题,在采取保证用户数据的机密性、完整性和可用性的基础上,已到数据进行脱敏处理,加强个人信息保护。脱敏后的特征说明如表所示。客户ID客户的ID号,已经过脱敏处理公司厂库公司的仓库编号,分为1~5等区装运方式装运产品的方式,分为船舶、飞行和公路。其中0代表公路,1表示船舶,2表示飞行客户服务电话数量从询价到询价的客户服务电话总数量字段字段说明

查看电商平台运输行为数据考虑到电商平台用户数据的敏感性和网络信息安全问题,在采取保证用户数据的机密性、完整性和可用性的基础上,已到数据进行脱敏处理,加强个人信息保护。脱敏后的特征说明如表所示。运输数量运输数量字段字段说明客户评价公司已对每位客户进行了评价。1为最低,5为最高产品重要性公司根据产品的重要程度,为0~10的评分数产品成本产品成本

查看电商平台运输行为数据考虑到电商平台用户数据的敏感性和网络信息安全问题,在采取保证用户数据的机密性、完整性和可用性的基础上,已到数据进行脱敏处理,加强个人信息保护。脱敏后的特征说明如表所示。字段字段说明性别客户的性别重量产品的重量折扣针对该特定产品提供的折扣准时到达商品是否准时到达。其中0表示未按时到达产品,1表示已按时到达

读取数据使用pandas库中read_csv函数读取用户行为数据。查看电子商务运输数据,输出前5行数据。

读取数据维度使用pandas库中shape属性可以得到DataFrame对象的维度信息。返回一个包含行数和列数的元组。

查看数据类型使用pandas库中info()方法查看电商平台运输行为数据类型。

分析产品重要程度使用Python中的pandas库中的cut函数可以对产品重要性进行等宽离散化处理。使用Matplotlib库的pie函数绘制产品重要程度分布饼图。

读取电商平台运输行为数据使用Matplotlib库的pie函数绘制是否按时到达分布的饼图。由图可知,初始数据集中有53.9%的客户按时到达,46.1%的客户未按时到达。

哑变量处理使用pandas库中get_dummies函数对性别变量进行哑变量处理。将一元变量性别拆分为性别_男和性别_女二元变量,并查看处理后的数据情况。客户ID性别1男2女3女4女5男性别_男性别_女1001010110

属性说明想要得到测试集的类别标签,需要模型经过训练集学习,模型在训练集上学习的其实就是特征。在给模型输入数据时,实际上模型用到的是特征及其相应的类别标签,而特征就是用于描述为什么该样本的类别标签如此。在本例中即用于描述某用户运输行为准时/不准时。结合生活经验及业务理解,为数据集增加“总成本”属性。

构造总成本属性使用pandas的DataFrame数据结构df访问“产品成本”和“运输数量”这两个属性列,并将它们相乘,得到每个客户的总成本。将总成本除以1000,得到以千元为单位的总成本,并将结果存储在一个新的列“总成本/千元”中。

保存数据使用pandas库的to_csv()方法将处理后的数据保存为新的数据集“新电子商务运输数据.csv”。保存路径为tmp文件,保留原有的中文表头且不保存行索引。

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档