- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
处理电商平台用户行为数据电商平台用户购买预测——逻辑回归
任务描述某电商平台需要对该平台的运输行为进行分析,并预测运输行为是否会按时到达。本任务需要对这些数据进行处理和分析,以帮助该电商平台更好地了解运输行为,并优化运输策略,提高客户满意度。在处理敏感的电商平台用户数据时,需要特别关注网络信息安全问题。在数据预处理过程中,应当采取措施保证用户数据的机密性、完整性和可用性。本任务的目标是对原始数据进行数据预处理与探索,包括数据的哑变量处理和属性构造。
任务要求探索电商平台运输行为数据。对性别变量进行哑变量处理。构造总成本的特征。
哑变量处理离散化处理属性构造
离散化处理离散化处理主要应用于某些场景下的连续变量数据,将其转化为离散变量数据,从而降低数据的复杂度、降低计算量,提高模型的建立和训练效率。常见的离散化方法有等宽离散化、等频离散化等,可以根据实际情况选择不同的离散化方法。什么是离散化处理?
等宽法等宽法(Equi-WidthBinning)将变量的取值范围划分为k个等宽的区间,将落在同一个区间内的数据归为同一类。什么是等宽法?01234567891011121314
等宽法等宽法(Equi-WidthBinning)将变量的取值范围划分为k个等宽的区间,将落在同一个区间内的数据归为同一类。什么是等宽法?01234567891011121314
等宽法等宽法划分示例图用户ID年龄1282323254405356277308269381029年龄[26-30][31-35][20-25][36-40][31-35][26-30][26-30][26-30][36-40][26-30]
如何实现等宽法处理?在Python中,使用pandas库的cut函数可以实现等宽离散化处理,其基本使用格式如下。等宽法pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates=raise)
cut函数常用参数及其说明等宽法pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates=raise)参数名称说明x接收Series或Numpy。表示输入的数据集,无默认值bins接收int。指定离散化的区间,可以是一个整数、一个序列(表示区间边缘的数值)或者字符串(表示自定义区间的名称),无默认值right接收bool。是否包含右边界,默认为Truelabels接收bool。指定离散化后每个区间的标签,可以是一个列表或数组,长度应该与分组后的区间数量相同。默认为None
cut函数常用参数及其说明等宽法retbins接收bool。是否返回每个区间的边界值,默认为Falseprecision接收int。设置显示区间边界的小数位数,默认为3include_lowest接收bool。是否将最小值包含在第一个区间内,默认为Falseduplicates接收指定str。当区间存在重复时,指定如何处理。默认为raise参数名称说明pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates=raise)
等宽法对年龄变量进行等宽离散化处理主要通过以下4个步骤实现。观察离散化处理前的数据集选取数据集的“年龄”变量列将“年龄”列按照相同间距划分为4个区间输出离散化处理后的数据集
等频法等频法(Equi-DepthBinning)将变量的取值范围划分为k个区间,每个区间包含大致相等数量的数据点,也称为分位数法(QuantileBinning)。什么是等频法?
等频法等频法(Equi-DepthBinning)将变量的取值范围划分为k个区间,每个区间包含大致相等数量的数据点,也称为分位数法(QuantileBinning)。什么是等频法?
等频法如何实现等频法处理?在Pyth
您可能关注的文档
- 《数据挖掘与机器学习》 课件 1.1.1 初识机器学习与数据挖掘、Python、Anaconda.pptx
- 《数据挖掘与机器学习》 课件1.1.2 安装Python.pptx
- 《数据挖掘与机器学习》 课件1.2 安装PyCharm.pptx
- 《数据挖掘与机器学习》 课件2.1 分析农产品类型情况.pptx
- 《数据挖掘与机器学习》 课件2.2.1 数据读取与写入.pptx
- 《数据挖掘与机器学习》 课件2.2.2 pandas数据结构.pptx
- 《数据挖掘与机器学习》 课件2.2.3 数据清洗.pptx
- 《数据挖掘与机器学习》 课件2.2.4 数据合并.pptx
- 《数据挖掘与机器学习》 课件2.2.5 分组聚合、处理农产品基本信息数据.pptx
- 《数据挖掘与机器学习》 课件2.3.1 基本语法和常用参数.pptx
- 某县纪委监委开展“校园餐”突出问题专项整治工作汇报22.docx
- 中小学校园食品安全与膳食经费管理专项整治工作自查报告66.docx
- 某县委常委、宣传部部长年度民主生活会“四个带头”个人对照检查发言材料.docx
- XX县委领导班子年度述职述廉报告3.docx
- 某县纪委关于校园餐问题整治工作落实情况的报告.docx
- 中小学校园食品安全与膳食经费管理专项整治工作自查报告22.docx
- 某县税务局党委领导班子年度民主生活会“四个带头”对照检查材料.docx
- 某县委书记在县委常委班子年度民主生活会专题学习会上的讲话.docx
- 某县纪委校园餐问题整治工作落实情况的报告.docx
- 某区委副书记、区长年度民主生活会对照检查材料.docx
文档评论(0)