- 2
- 0
- 约8.12千字
- 约 25页
- 2026-05-16 发布于广东
- 举报
机器学习关键技巧
1.理解问题与数据
分类vs回归:明确问题目标(预测类别或连续值)。
数据探索:理解数据来源、含义和分布。
问题类型匹配:确保所选算法适合问题类型。
2.数据预处理
处理缺失值:
删除:适用于缺失比例高的特征或样本。
填充:用均值、中位数、众数或复杂插值算法填补。
编码分类变量:
LabelEncoding:将类别转换为数字(慎用,可能导致模型误解顺序)。
One-HotEncoding:为每个类别创建一个虚拟变量(常用且安全)。
特征缩放:
Standardization:将特征转换为均值为0,标准差为1(常用,尤其适用于需要距离计算的算法如SVM、KNN、K-means)。
Normalization:将特征缩放到[0,1]或[-1,1]区间(适用于像素值等特定数据)。
文本/图像数据处理:分词、向量化、图像预处理(归一化、增强等)。
数据集成:合并来自不同来源的数据,解决冗余和冲突。
3.特征工程
特征创建:从原始特征组合或转换生成新特征(例如:日期时间特征分解为年、月、日)。
特征选择:
过滤法:基于统计指标(如相关系数、卡方检验)选择特征。
嵌入法:模型训练过程中进行选择(如LASSO回归、树模型自带特征重要性)。
包装法:使用模型来评估特征子集(如递归特征消除RFE)。
特征降维:
PCA、t-SNE、因子分析等:减少特征数量,消除冗余,
原创力文档

文档评论(0)