- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习
机器学习
第2章机器学习基本方法
第2章机器学习基本方法
章节介绍
• 本章主要介绍机器学习地基础知识,包括常用概念与统计分析基础知识
• 目地是理解掌握机器学习地主要原理
• 主要涵盖以下内容,统计分析,高维数据降维,特征工程,模型训练等
章节结构
• 统计分析
• 统计基础
• 常见概率分布
• 参数估计
• 假设检验
• 线性回归
• Logistics回归
• 判别分析
• 非线性模型
• 高维数据降维
• 主成分分析
• 线性判别分析
章节结构
• 特征工程
• 特征构造
• 特征选择
• 特征提取
• 模型训练
• 模型训练常见术语
• 训练数据收集
• 可视化分析
• 可视化分析地作用
• 可视化分析方法
• 可视化分析常用工具
• 常见地可视化图表
统计分析
• 统计学是研究如何搜集资料,整理资料与进行量化分析,推断地一门科学,在
科学计算,工业与金融等领域有着重要应用,统计分析是机器学习地基本方
法
• 与统计分析有关地基本概念有以下几个
• 总体:根据定目地确定地所要 研究事物地全体
• 样本:从总体中随机抽取地若干个体构成地集合
• 推断:以样本所包含地信息为基础对总体地某些特征作出判断,预测与估计
• 推断可靠性:对推断结果从概率上地确认,作为决策地重要依据
• 统计分析分为描述性统计与推断性统计,描述性统计是通过对样本进行整理
,分析并就数据地分布情况获取有意义地信息,从而得到结论。推断统计又
分为参数估计与假设检验,参数估计是对样本整体中某个数值进行估计,如
推断总体平均数等,而假设检验是通过对所做地推断验证,从而进择行才方
案
统计基础
议程
• 输入空间,特征空间与输出空间
• 向量空间模型包括输入空间,特征空间与输出空间,输入与输出所有地可能
取值地集合分别称为输入空间与输出空间,每个具体地输入是一个实例, 通
常由特征向量表示,所有特征向量存在地空间成为特征空间。输入变量用一
般用xx表示,输出变量用y表示
• 联合概率分布
• 在监督式学习中是假设输入与输出地变量x与y遵循联合概率分布,表示样本
数据存在一定地规律,可以假定这个联合概率分布地存在,但是其分布是未
知地,x与y具有联合概率分布地假设就是监督学习关于数据地基本假设
• 假设空间
• 机器学习模型是由输入空间到输出空间地映射地集合,这个集合就是假设空
间。假设空间确定了预测地范围。监督学习地目地是学习一个由输入到输
出地映射规律,这个映射规律就是模型。监督学习地模型包括板率模型,非
统计基础
议程
• 均值,标准差,方差,协方差
• 均值描述地是样本集合地平均值
• 标准差描述是样本集合地各个样本点到均值地距离分布,描述地是样本集地
分散程度
• 在机器学习中地方差就是估计值与其期望值地统计方差。如果进行多次重
复验证地过程,就会发现模型在训练集上地表现并不固定,会出现波动,这些
波动越大,它地方差就越大
• 协方差主要用来度量两个随机变量关系,如果结果为正值,则说明两者是正
有关地;结果为负值,说明两者是负有关地;如果为0,就是统计上地相互独立
• 超参数
• 超参数是机器学习算法地调优参数,常应用于估计模型参数地过程中,由用
户直接指定,可以使用启发式方法来设置,并能依据给定地预测问题而调整
统计基础
议程
• 损失函数与风险函数
• 损失函数是关于模型计算结果与样本实际目地结果地非负实值函数,记作用
它来解释模型在每个样本实例上地误差损失函数地值越小,说明预测值与实
际值越接近, 即模型地拟合效果越好
• 损失函数主要包括以下几种: 0-1损失函数,平方损失函数,绝对损失函数,对
数损失函数
• 训练误差
统计基础
议程
• 正则化与交叉验证
• L0正则化
• L1正则化
• L2正则化
• HoldOut检验
• 简单交叉检验
• K折交叉检验
• 留一交叉检验
常见概率分布
议程
• 均匀分布
• 正态分布
• 分布
• 卡方分布
• F-分布
• 二项分布
• 0-1分布
• Poisson分布
参数估计
议程
• 参数估计是用样本统计量去估计总体地参数, 即根据样本数据选择统计量去
推断总体地分布或数字特征
原创力文档


文档评论(0)