第3章数据预处理与特征工程机器学习算法与实践数据清理数据规范化特征选择编码方法
本章概览数据清理?缺失值处理删除法、填补法、多重插补、模型预测?异常值检测与处理Z-分数法、箱线图、KNN、DBSCAN数据规范化与离散化?数据规范化最小-最大规范化、Z-分数规范化、小数定标?数据离散化等宽离散化、等频离散化、聚类与决策树特征选择与提取?特征选择过滤式、包裹式、嵌入式方法?特征提取主成分分析(PCA)降维技术类别变量编码?编码方法序列编码、独热编码、目标编码、哈希编码?编码策略选择根据特征性质和算法需求选择合适方法
3.1数据清理为什么数据清理如此重要?现实世界中的数据往往是复杂且不完美的,可
原创力文档

文档评论(0)