《数据挖掘与机器学习》 课件4.1.1 哑变量处理.pptxVIP

  • 2
  • 0
  • 约1.88千字
  • 约 13页
  • 2025-02-20 发布于浙江
  • 举报

《数据挖掘与机器学习》 课件4.1.1 哑变量处理.pptx

8南宁职业技术学院

NCVTNANNINGCOLLEGEFORVOCATIONALTECHNOLOGY

数据挖掘与机器学习

DATAMININGA°NDMACHINELEARNING

处理电商平台用户行为数据

电商平台用户购买预测——逻辑回归

任务描述处理电商平台用户行为数据

某电商平台需要对该平台的运输行为进行分析,并预测运输行为是否会按时到达。

本任务需要对这些数据进行处理和分析,以帮助该电商平台更好地了解运输行为,并优化运输策略,提高客户满意度。

在处理敏感的电商平台用户数据时,需要特别关注网络信息安全问题。在数据预处理过

程中,应当采取措施保证用户数据的机密性、完整性和可用性。

本任务的目标是对原始数据进行数据预处理与探索,包括数据的哑变量处理和属性构造。

任务要求处理电商平台用户行为数据

探索电商平台运输行为数据。

对性别变量进行哑变量处理。

构造总成本的特征。

Part1相关知识

·哑变量处理

·离散化处理

·属性构造

什么是哑变量处理?

在某些分类问题中,原始数据可能包含一些分类变量(也称为离散变

量),如性别、颜色等。

哑变量处理

哑变量处理:即将每个分类变量拆分成多个二元变量。拆分后性别变量变为

“男”“女”两种形式,其中1表示肯定,0表示否定。

性别_男

性别_女

1

0

0

1

1

0

1

0

0

1

0

1

1

0

0

1

1

0

1

0

用户ID

性别

1

2

3

4

5

6

7

8

9

10

哑变量处理

处理电商平台用户行为数据

哑变量处理

0

1

哑变量处理处理电商平台用户行为数据

如何实现哑变量处理?

在Python中,使用pandas库的get_dummies函数可以对类别型数据进行哑变量处

理,其基本使用格式如下。

pd.get_dummies(data,prefix=None,prefix_sep=_,dummy_na=False,columns=None,sparse=False,drop_first=False)

参数名称

说明

data接收DataFrame。表示输入数据集,无默认值

prefix接收字符串。表示虚拟变量的名称前缀,默认为None

prefix_sep接收字符串。表示虚拟变量的名称前缀与原始列名之间的分隔符,默认为_

dummy_na接收字符串或列表。表示是否添加一列表示缺失值,默认为False

columns接收字符串或列表。要进行独热编码的列名,默认为None

sparse

接收bool。表示是否使用稀疏矩阵表示虚拟变量,默认为False

drop_first

接收bool。表示是否删除每个虚拟变量的第一列,默认为False

get_dummies函数常用参数及其说明

处理电商平台用户行为数据

哑变量处理

用户ID

年龄/岁

地区

历史消费金额/元

是否购买

1

28

北京

1200

1

2

32

上海

800

0

3

25

广州

500

0

4

40

上海

3200

1

5

35

深圳

1500

1

6

27

广州

600

0

7

30

北京

900

1

8

26

北京

700

0

9

38

北京

2400

1

10

29

上海

1000

0

双十一是中国的网购狂欢节。

一家电商品牌公司统计了其旗舰店老客户在双十一期间的是否购买某美妆产品的消费者信息数据。

哑变量处理例题

例题分析处理电商平台用户行为数据

对地区变量进行哑变量处理主要通过以下4个步骤实现。

观察哑变量处理前的数据集

选取数据集的“地区”变量列

将“地区”列按照类别“北上广深”拆分为4个二元变量

输出哑变量处理后的数据集

谢谢大家!

文档评论(0)

1亿VIP精品文档

相关文档