数据科学与大数据分析手册(执行版).docxVIP

  • 3
  • 0
  • 约3.08万字
  • 约 45页
  • 2026-06-14 发布于江西
  • 举报

数据科学与大数据分析手册(执行版).docx

数据科学与大数据分析手册(执行版)

第1章数据基础与预处理

1.1数据类型与特征工程

数据科学的核心在于从原始数据中提取出具有预测或分析价值的信息,这一过程始于对数据类型的精准识别与特征工程的构建。在特征工程中,我们将原始数据转化为模型可理解的结构化信息,而数据类型决定了后续处理策略的走向。

我们需要明确数据的“原子单位”是数据的基本类型,包括数值型(数值型数据)、类别型(类别型数据)和文本型(文本型数据)。数值型数据如身高、温度或销售额,具有数学运算能力,可以直接参与加减乘除;类别型数据如“性别”、“城市”或“产品类别”,通常通过标签编码(如0/1或A/B/C)处理;文本

文档评论(0)

1亿VIP精品文档

相关文档