机器学习关键技巧.docxVIP

机器学习关键技巧.docx

机器学习关键技巧

1.理解问题与数据

分类vs回归：明确问题目标（预测类别或连续值）。

数据探索：理解数据来源、含义和分布。

问题类型匹配：确保所选算法适合问题类型。

2.数据预处理

处理缺失值：

删除：适用于缺失比例高的特征或样本。

填充：用均值、中位数、众数或复杂插值算法填补。

编码分类变量：

LabelEncoding：将类别转换为数字（慎用，可能导致模型误解顺序）。

One-HotEncoding：为每个类别创建一个虚拟变量（常用且安全）。

特征缩放：

Standardization：将特征转换为均值为0，标准差为1（常用，尤其适用于需要距离计算的算法如SVM、KNN、K-means）。

Normalization：将特征缩放到[0,1]或[-1,1]区间（适用于像素值等特定数据）。

文本/图像数据处理：分词、向量化、图像预处理（归一化、增强等）。

数据集成：合并来自不同来源的数据，解决冗余和冲突。

3.特征工程

特征创建：从原始特征组合或转换生成新特征（例如：日期时间特征分解为年、月、日）。

特征选择：

过滤法：基于统计指标（如相关系数、卡方检验）选择特征。

嵌入法：模型训练过程中进行选择（如LASSO回归、树模型自带特征重要性）。

包装法：使用模型来评估特征子集（如递归特征消除RFE）。

特征降维：

PCA、t-SNE、因子分析等：减少特征数量，消除冗余，

更多 >