- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
理解机器学习算法的1点心得
理解机器学习算法的一点心得
从Andrew ng的公开课开始,机器学习的算法我接触到的也越来越多,我觉得机器学习算法和传统算法的最大不同就是:不会要求一个问题被100%求解,也就意味着不会有完美的解法,这也是著名的“Essentially, all models are wrong, but some are useful.”所表达的意思。正因为如此,机器学习算法往往不会有一个固定的算法流程,取而代之的把问题转化为最优化的问题,无论是ML(maximum likelihood),MAP(Maximum a Posterior)和EM(Expectation Maximization),都是这样的。
? ? ?然后用不同的方法来优化这个问题,得到尽量好的结果,给人的感觉就像是一个黑盒,实际使用中需要不断地调参实验,但倘若你能理解好算法,至少能让这个盒子透明一点,这也是机器学习算法确实需要使用者去理解算法的原因,举个例子:传统算法比如一些高效的数据结构,我只需要知道一些接口就可以使用,不需要进行太多的理解,了解传统算法更多的是理解算法的思想,开阔思路,增强能力;而机器学习算法,你即使知道接口,也至少要调一些参数来达到实际使用的目的。
? ? ?这样一来,阅读各类书籍和paper也就在所难免了,甚至去阅读代码以至于实现加深理解,对于实际使用还是有很大的好处的,因为不是100%求解问题,所以面对不同的应用场景,想要达到最好的效果都需要加以变化。本文记录了一点自己学习的心得,私以为只要你能对算法有一种说得通的解释,就是OK的,不一定要去深挖其数学上的证明(表示完全挖不动啊…………_)
=====================================================================
O. ?目的
? ? ?之前说到机器学习算法常常把问题转化为一个最优化问题,理解这个最优化问题的目的能很好地帮助我们理解算法,比如最简单的最小二乘法(Least-squares):
? ? ? ? ?
? ? ?(这里的x是参数,和一些机器学习的常用表示里面有出入)
? ? ?好多机器学习入门书都是从最小二乘开始引入的,其实这是线性代数(还是概率统计?囧rz)的课本内容嘛。
? ? ?理解上式应该非常简单呐,括号内的就是目标值和与测试的差,取平方之后抹掉正负,而该式是要最小化这个东西,那么这个优化问题的“目的”就是最小化预测???数在训练集上的误差。
? ? ?当然这是最简单的一个例子了,我们接着看朴素贝叶斯分类器的优化目标:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ?(这里xi,yi是训练集,π和θ是参数)
? ? ??无论他后面怎么变化,用了什么优化方式,该算法的目的就是在训练集上最大化这个东西,只不过对于朴素贝叶斯来说,它加入了非常强的假设来简化问题而已。
? ? ? ? ? ? ? ? ? ? ? ? ??
? ? ? 然后朴素贝叶斯用了一系列的参数来描述这个需要优化的概率值,为了达到目的还是用了log来变换一下,但对于你来说,只需要记住他的“目的”,就可以很容易地理解算法了。
一. ?趋势
? ? ? ? 接下来要讲的是趋势,广义上来说和目的是一回事,但算法的优化目标的一些部分是与算法总体目的相对分割的,比如一些正则化(regularization)的项,这些项对于算法实际使用效果往往有着重大影响,但并不绝对大的方向(目的),所以“趋势”我们单独开 一章来讲。
? ? ? ? 我们还是从最简单的?L2-norm regularization 来开启这个话题吧,把这个项加到最小二乘后面:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
? ? ? ? 虽然也能把该式表示为标准的最小二乘结构,但对理解算法并无帮助,我们不这样做。
? ? ? ? 可以看到该式的第二项是想要参数的平方和,而整个是Minimize的,所以直观来说就是想要学到的参数的绝对值越小越好,这就是我理解的“趋势”
? ? ? ? 可是为什么让参数平方和越小能防止over-fitting呢?这里就有很多解释了,比如加入该项是对数据的原始分布加了个高斯分布作为先验(有证明的貌似),但像我这种数学渣渣还是走intuition的方向吧,这样理解:(这是Convex Optimizition课上提到的,我也不知道是否是对的,但能够说通)
? ? ? ??我们得到的训练数据是有测量误差的,记为delta,参数为x,要优化的为:||Ax-y||,其实是||(A+delta)x-y||=||Ax-y+delta*x||:
? ? ? ? ? ? ? ? ? ? ?
您可能关注的文档
- 清朝土地制度及阶级关系.doc
- 清除QQ登录界面输入框中其他号码记录.doc
- 清除注册表几种方法.doc
- 渔农村第2出口及连接道路市政工程环境影响报告书.doc
- 清新绿色创意图形结合字母标志的设计.doc
- 渗流力学名词解释和重点公式.doc
- 混合运算[的设计人-范风东-马增涛].doc
- 温州工商年度检网上申报流程(最新版).doc
- 渤海大学文理学院怎样用WIN7笔记本作为无线路由器.doc
- 温州市教研室2006年度下半年度学科教研活动计划.doc
- 新消费品牌私域流量运营策略与品牌忠诚度维护报告.docx
- 天全县项目可行性研究报告(仅供参考).docx
- 2025年金融行业风险控制:金融科技在反洗钱中的应用案例报告.docx
- 城市轨道交通建设规划与智慧化维护保养研究报告.docx
- 2025年智能传感技术在高端装备状态监测中的应用与市场前景分析报告.docx
- 2025年远程医疗服务模式在基层医疗体系中的应用与发展报告.docx
- 2025年汽车行业供应链韧性与风险管理关键指标解读报告.docx
- 金融反欺诈大数据应用案例解析与2025年技术趋势展望.docx
- 天台县项目可行性研究报告.docx
- 2025年社区养老服务体系中社区互助模式的研究报告.docx
文档评论(0)