- 0
- 0
- 约1.71万字
- 约 11页
- 2026-02-13 发布于江苏
- 举报
深深度度学学习习六六⼗⼗问问((基基础础题题))
数数据据类类问问题题
1.样本不平衡的处理⽅法
①⽋采样-随机删除测数量⾜够多的类,使得两个类别间的相对⽐例是显著的。虽然这种⽅法使⽤起来⾮常简单,但很有可能被我们删除了的数据包含着预测
类的重要信息。
②过采样-对于不平衡的类别,我们使⽤拷贝现有样本的⽅法随机增加测数量。理想情况下这种⽅法给了我们⾜够的样本数,但过采样可能导致过拟合训练数
据。
③合成采样(SMOTE)-该技术要求我们⽤合成⽅法得到不平衡类别的测,该技术与现有的使⽤最近邻分类⽅法很类似。问题在于当⼀个类别的测数量极
度稀少时该怎么做。⽐如说,我们想⽤图⽚分类问题确定⼀个稀有物种,但我们可能只有⼀幅这个稀有物种的图⽚。
④在loss⽅⾯,采⽤focalloss等loss进⾏控制不平衡样本。
不平衡类别会造成问题有两个主要原因:
1.对于不平衡类别,我们不能得到实时的最优结果,因为模型/算法从来没有充分地考察隐含类。
2.它对验证和测试样本的获取造成了⼀个问题,因为在⼀些类测极少的情况下,很难在类中有代表性。
2.讲下数据增强有哪些⽅法(重点)
翻转,旋转,缩放,裁剪,平移,添加噪声,有监督裁剪,mixup,上下采样,增加不同惩罚
解决图像细节不⾜问题(增强特征提取⾻⼲⽹络的表达能⼒)
3.过拟合的解决办法(重点)
数据扩充/数据增强/更换⼩⽹络(⽹络太复杂)/正则化/dropout/batchnormalization
增加训练数据、减⼩模型复杂度、正则化,1/2正则化、集成学习、早期停⽌
什么是过拟合
过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进⾏了很好
的拟合。
产⽣过拟合根本原因:
察值与真实值存在偏差,训练数据不⾜,数据太少,导致⽆法描述问题的真实分布,数据有噪声,训练模型过度,导致模型⾮常复杂
什么是⽋拟合:训练的模型在训练集上⾯的表现很差,在验证集上⾯的表现也很差
原因:训练的模型太简单,最通⽤的特征模型都没有学习到
正正则则化化
正则化的原理:在损失函数上加上某些规则(限制),缩⼩解空间,从⽽减少求出过拟合解的可能性。
机器学习中⼏乎都可以看到损失函数后⾯会添加⼀个额外项,常⽤的额外项⼀般有两种,⼀般英⽂称作l1-norm和l2-norm,中⽂称作1正则化和2正则化,
或者1范数和2范数。
1.0、1、2正则化
0范数:向量中⾮0元素的个数。
1范数(assoRegularization):向量中各个元素绝对值的和。
2范数(RidgeRegression):向量中各元素平⽅和再求平⽅根。
2.1、2正则化区别,为什么稀疏的解好?
1会趋向于产⽣少量的特征,⽽其他的特征都是0,⽽2会选择更多的特征,这些特征都会接近于0(产⽣稀疏性)。
实现参数的稀疏有什么好处吗?
⼀个好处是可以简化模型,避免过拟合。另⼀个好处是参数变少可以使整个模型获得更好的可解释性。
3.1正则化和2正则化的作⽤
1正则化可以产⽣稀疏权值矩阵,即产⽣⼀个稀疏模型,可以⽤于特征选择。
2正则化可以防⽌模型过拟合(overfitting);⼀定程度上,1也可以防⽌过拟合。
4.正则化有哪⼏种,分别有什么作⽤?
0范数和1范数都能够达到使参数稀疏的⽬的,但0范数更难优化求解,1范数是0范数的最优凸近似,⽽且它⽐0范数要容易优化求解。
2范数不但可以防⽌过拟合,提⾼模型的泛化能⼒,还可以让我们的优化求解变得稳定和快速。2范数对⼤数和outlier更敏感。
1、2范数,1趋向于0,但2不会,为什么?
1范数更容易产⽣稀疏的权重,2范数更容易产⽣分散的权重
激激活活函函数数与与梯梯度度
在多层神经⽹络中,上层节点的输出和下层节点的输⼊之间具有⼀个函数关系,这个函数称为激活函数(⼜称激励函数)。
1.激活函数的意义如下:
①模拟⽣物神经元特性,接受输⼊后通过⼀个阈值模拟神经元的激活和兴奋并产⽣输出;
②为神经⽹络引⼊⾮线性,增强神经⽹络的表达能⼒;
③导出神经⽹络最后的结果(在输出层时)。
常⽤的激活函数?sigmoid,tanh,ReU,leakyReU,PReU,EU,random
原创力文档

文档评论(0)