《张伟机器学习基础》课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

张伟机器学习基础主讲:张伟教授日期:2025年春季学期课程编号:CS401

课程概述机器学习基础理论核心算法与应用场景1课程安排10周课程,每周5小时2学习内容理论讲解与实践练习3先修要求线性代数、概率论、Python基础4

学习目标理解核心概念掌握机器学习基本原理与算法数据处理能力熟练运用数据预处理与特征工程技术实际应用能够选择适当算法解决实际问题项目实践培养完整机器学习项目实施能力

机器学习简介1基本定义从数据中学习的计算机算法2发展历史从1950年代至今的重要突破3学科关系与人工智能、深度学习的联系4应用领域医疗、金融、交通等广泛应用

机器学习类型监督学习利用有标签数据训练模型包括分类与回归问题如:垃圾邮件识别、房价预测无监督学习在无标签数据中发现模式包括聚类与降维如:客户分群、异常检测半监督与强化学习半监督:结合标签与无标签数据强化学习:基于奖惩机制学习如:自动驾驶、游戏AI

机器学习工作流程问题定义与数据收集明确目标,获取相关数据数据预处理与特征工程清洗数据,提取有用特征模型选择与训练选择合适算法,利用训练数据学习评估与优化测试模型性能,调整参数部署与监控应用于实际环境,持续监控效果

数学基础:线性代数向量与矩阵运算矩阵乘法向量点积转置操作特征值与特征向量特征分解对角化应用于PCA矩阵分解SVD分解LU分解QR分解线性变换空间映射向量空间正交投影

数学基础:概率与统计概率分布正态分布、伯努利分布、泊松分布贝叶斯定理先验概率与后验概率关系统计度量期望、方差、协方差计算与应用统计推断假设检验与置信区间分析

数学基础:微积分与优化优化问题寻找函数最优解梯度下降沿梯度方向迭代寻优导数与偏导函数变化率计算凸优化理论全局最优解存在条件

Python机器学习工具包NumPy科学计算基础库Pandas数据处理与分析工具Scikit-learn经典机器学习算法实现可视化库Matplotlib/Seaborn数据展示深度学习框架PyTorch/TensorFlow模型构建

数据预处理缺失值处理删除、插补、模型预测异常值检测箱线图、Z分数、IQR方法数据标准化Z-score、Min-Max缩放数据平衡过采样、欠采样、SMOTE技术

特征工程特征选择过滤、包装、嵌入选择法降维技术PCA、LDA、t-SNE方法特征转换对数变换、多项式特征特征编码One-hot、标签、频率编码

监督学习:线性回归模型原理寻找最佳拟合直线预测连续型数值基于最小二乘法优化类型与变体简单线性回归多元线性回归多项式回归正则化方法岭回归(L2正则化)Lasso回归(L1正则化)弹性网络(混合正则化)

监督学习:逻辑回归x值sigmoid函数逻辑回归原理将线性结果映射到概率值决策边界概率阈值划分类别优化方法最大似然估计多分类扩展一对多、softmax方法

监督学习:决策树决策树原理基于特征条件递归分割数据将复杂决策分解为简单决策序列分裂标准信息增益基尼指数方差减少(回归树)优化技术预剪枝与后剪枝最大深度限制最小样本数限制

监督学习:随机森林集成原理多个决策树投票决策随机性引入随机选择样本与特征Bagging技术有放回抽样构建子模型特征重要性评估各特征对预测的贡献

监督学习:支持向量机最大间隔原理寻找最佳分隔超平面核函数技术线性不可分问题映射高维软间隔SVM允许部分误分类优化整体

监督学习:K近邻算法K邻居数量调整K值影响决策边界平滑度1/d距离权重距离越近影响越大O(n)计算复杂度与训练样本数量成正比KNN原理以邻为伴,物以类聚距离计算欧氏距离、曼哈顿距离、闵可夫斯基距离适用场景小数据集、低维特征空间

监督学习:朴素贝叶斯朴素贝叶斯原理基于特征条件独立假设应用贝叶斯定理计算后验概率选择最高概率类别作为预测应用优势训练速度快处理高维数据有效文本分类表现优异小样本学习能力强

无监督学习:K-means聚类初始化随机选择K个聚类中心分配将样本分配至最近中心更新重新计算各簇中心迭代重复直至收敛

无监督学习:层次聚类1自底向上聚合从单个样本开始逐步合并2自顶向下分裂从整体样本开始逐步分割3聚类合并策略单链接、全链接、平均链接4树状图分析可视化聚类层次结构

无监督学习:密度聚类DBSCAN原理基于密度连接形成簇关键参数ε邻域半径与最小点数噪声处理自动识别离群点不规则簇形能发现任意形状的簇

无监督学习:降维技术主成分分析(PCA)寻找最大方差方向t-SNE保留局部结构关系UMAP高效保留全局与局部结构

无监督学习:异常检测统计方法基于统计分布识别异常值Z分数法箱线图法马氏距离基于密度低密度区域视为异常LOF算法DBSCAN扩展KNN距离隔离森林随机分割空间快速隔离异常随机特征选择随机分割点异常点分离路径短

集成学习方法方法原理代表算法特点Bagging并行训练独立模型随机森林降低方差B

文档评论(0)

134****7146 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档