机器统计学习作业汇总.docx

一、()泛化误差上界:对二分类问题,当假设空间是有限个函数的集合时,对任意一个函数,至少以概率,以下不等式成立: 其中, 即的泛化能力:.证明:在证明中要用到Hoeffding不等式,故先叙述如下: 设是独立随机变量是之和,;为这组随机变量的均值,则,以下不等式成立: 对任意函数,是个独立的随机变量样本均值,是随机变量的期望值。如果损失函数取值于区间,即对所有,,那么有上述Hoeffding不等式,对,以下不等式成立: 由于是一有限集合,故 或者等价的,对任意,有 令 则 故至少以概率有. ()以损失函数推导向量 最小化感知机的损失函数 ?感知机学习算法是误分类驱动的,具体采用随机梯度下降法。首先,任意选取一个超平面,然后用梯度下降法不断极小化目标函数,极小化的过程不是一次使中所有的误分类点的梯度下降,而是一次随机选取一个误分类点使其梯度下降.随机梯度下降是一种迭代求解思路,而迭代法参数寻优的基本原理:沿着(代价)函数下降的方向寻找参数,能够找到极值点.在我们已经学过的数学知识中,导数和方向导数是能找到函数变化方向的。导数表示了曲线的斜率(倾斜度),方向导数表示了曲面沿着任意方向的斜率(倾斜度)。一维时,导数就足够了。但多维时,就需要借助方向导数了,而我们更希望能找到变化率最大的方向。因此,多维下借用方向导数变化最大的情况:梯度,梯度的方向是函数某点增长最快的方向,梯度的大小是该点

文档评论(0)

1亿VIP精品文档

相关文档