网站大量收购闲置独家精品文档,联系QQ:2885784924

《数据挖掘与机器学习》 课件4.1.1 哑变量处理.pptx

《数据挖掘与机器学习》 课件4.1.1 哑变量处理.pptx

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

处理电商平台用户行为数据电商平台用户购买预测——逻辑回归

任务描述某电商平台需要对该平台的运输行为进行分析,并预测运输行为是否会按时到达。本任务需要对这些数据进行处理和分析,以帮助该电商平台更好地了解运输行为,并优化运输策略,提高客户满意度。在处理敏感的电商平台用户数据时,需要特别关注网络信息安全问题。在数据预处理过程中,应当采取措施保证用户数据的机密性、完整性和可用性。本任务的目标是对原始数据进行数据预处理与探索,包括数据的哑变量处理和属性构造。

任务要求探索电商平台运输行为数据。对性别变量进行哑变量处理。构造总成本的特征。

哑变量处理离散化处理属性构造

哑变量处理什么是哑变量处理?在某些分类问题中,原始数据可能包含一些分类变量(也称为离散变量),如性别、颜色等。男女无法识别

哑变量处理哑变量处理:即将每个分类变量拆分成多个二元变量。拆分后性别变量变为“男”“女”两种形式,其中1表示肯定,0表示否定。用户ID性别1男2女3男4男5女6女7男8女9男10男性别_男性别_女10011010010110011010

哑变量处理01

如何实现哑变量处理?在Python中,使用pandas库的get_dummies函数可以对类别型数据进行哑变量处理,其基本使用格式如下。哑变量处理pd.get_dummies(data,prefix=None,prefix_sep=_,dummy_na=False,columns=None,sparse=False,drop_first=False)

哑变量处理get_dummies函数常用参数及其说明参数名称说明data接收DataFrame。表示输入数据集,无默认值prefix接收字符串。表示虚拟变量的名称前缀,默认为Noneprefix_sep接收字符串。表示虚拟变量的名称前缀与原始列名之间的分隔符,默认为_dummy_na接收字符串或列表。表示是否添加一列表示缺失值,默认为Falsecolumns接收字符串或列表。要进行独热编码的列名,默认为Nonesparse接收bool。表示是否使用稀疏矩阵表示虚拟变量,默认为Falsedrop_first接收bool。表示是否删除每个虚拟变量的第一列,默认为False

双十一是中国的网购狂欢节。一家电商品牌公司统计了其旗舰店老客户在双十一期间的是否购买某美妆产品的消费者信息数据。哑变量处理例题用户ID年龄/岁地区历史消费金额/元是否购买128北海8000325广州5000440上州6000730北京9001826北京7000938北京240011029上海10000

例题分析对地区变量进行哑变量处理主要通过以下4个步骤实现。观察哑变量处理前的数据集选取数据集的“地区”变量列将“地区”列按照类别“北上广深”拆分为4个二元变量输出哑变量处理后的数据集

您可能关注的文档

文档评论(0)

xiaobao + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档