斯坦福大学机器学习梯度算法总结.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
斯坦福大学机器学习梯度算法总结

斯坦福大学机器学习梯度下降算法学习心得和相关概念介绍。1基础概念和记号线性代数对于线性方程组可以提供一种简便的表达和操作方式,例如对于如下的方程组:4x1-5x2=13-2x1+3x2=-9可以简单的表示成下面的方式:X也是一个矩阵,为(x1,x2)T,当然你可以看成一个列向量。1.1基本记号用A ∈表示一个矩阵A,有m行,n列,并且每一个矩阵元素都是实数。用x ∈ , 表示一个n维向量. 通常是一个列向量. 如果要表示一个行向量的话,通常是以列向量的转置(后面加T)来表示。1.2向量的内积和外积根据课内的定义,如果形式如xT y,或者yT x,则表示为内积,结果为一个实数,表示的是:,如果形式为xyT,则表示的为外积:。1.3矩阵-向量的乘法给定一个矩阵A ∈ Rm×n,以及一个向量x ∈ Rn,他们乘积为一个向量y = Ax ∈ Rm。也即如下的表示:如果A为行表示的矩阵(即表示为),则y的表示为:相对的,如果A为列表示的矩阵,则y的表示为:即:y看成A的列的线性组合,每一列都乘以一个系数并相加,系数由x得到。同理,yT=xT*A表示为:yT是A的行的线性组合,每一行都乘以一个系数并相加,系数由x得到。1.4矩阵-矩阵的乘法同样有两种表示方式:第一种:A表示为行,B表示为列第二种,A表示为列,B表示为行:本质上是一样的,只是表示方式不同罢了。1.5矩阵的梯度运算(这是老师自定义的)定义函数f,是从m x n矩阵到实数的一个映射,那么对于f在A上的梯度的定义如下:这里我的理解是,f(A)=关于A中的元素的表达式,是一个实数,然后所谓的对于A的梯度即是和A同样规模的矩阵,矩阵中的每一个元素就是f(A)针对原来的元素的求导。1.6其他概念因为篇幅原因,所以不在这里继续赘述,其他需要的概念还有单位矩阵、对角线矩阵、矩阵转置、对称矩阵(AT=A)、反对称矩阵(A=-AT)、矩阵的迹、向量的模、线性无关、矩阵的秩、满秩矩阵、矩阵的逆(当且仅当矩阵满秩时可逆)、正交矩阵、矩阵的列空间(值域)、行列式、特征向量与特征值……2用到的公式在课程中用到了许多公式,罗列一下。嗯,部分公式的证明很简单,部分难的证明我也不会,也懒得去细想了,毕竟感觉上数学对于我来说更像是工具吧。转置相关:? (AT)T = A? (AB)T = BT AT? (A + B)T = AT + BT迹相关:? For A ∈ Rn×n, trA = trAT .? For A, B ∈ Rn×n, tr(A + B) =trA + trB.? For A ∈ Rn×n, t ∈ R, tr(tA) = t trA.? For A, B such that AB issquare, trAB = trBA.? For A, B, C such that ABC issquare, trABC = trBCA = trCAB。 当乘法变多时也一样,就是每次从末尾取一个矩阵放到前面去,这样的矩阵乘法所得矩阵的迹是一致的。秩相关? For A ∈ Rm×n,rank(A) ≤ min(m, n). If rank(A) = min(m, n), 则A称为满秩? For A ∈ Rm×n,rank(A) = rank(AT).? For A ∈ Rm×n, B ∈ Rn×p,rank(AB) ≤ min(rank(A), rank(B)).? For A, B ∈ Rm×n,rank(A + B) ≤ rank(A) +rank(B).逆相关:? (A?1)?1 = A? If Ax = b, 左右都乘以A?1 得到 x = A?1b.?? (AB)?1 = B?1A?1? (A?1)T = (AT)?1. F通常表示为A?T.行列式相关:? For A ∈ Rn×n, |A| = |AT |.? For A, B ∈ Rn×n, |AB| = |A||B|.? For A ∈ Rn×n, |A| = 0,表示矩阵A是奇异矩阵,不可逆矩阵? For A ∈ Rn×n and A 可逆, |A|?1 = 1/|A|.梯度相关:? ?x(f(x) + g(x)) = ?xf(x) + ?xg(x).? For t ∈ R, ?x(t f(x)) = t?xf(x).? ?xbT x = b? ?xxT Ax = 2Ax (if A 对称)? ?2xxT Ax = 2A (if A 对称)? ?A|A| =(adj(A))T = |A|A?T . adj=adjoint3梯度下降算法和正规方程组实例应用例子用的是上节课的房价的例子,有一组数据,有房子面积和房子价格,输入格式举例:老师定义的变量如下:m:训练样本的数目x:输入的变量(输入的特征,在这个例子中为房子面积,后来又加了一个房子

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档