浅谈对机器学习的理解.docVIP

下载本文档

7
0
约3.05千字
约 2页
2021-01-30 发布于河北
举报
版权申诉

浅谈对机器学习的理解.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈对机器学习的理解人工智能大师西蒙曾说过：“学习就是系统在不断重复的工作中对本身能力的增强或者改进，使得系统在下一次执行同样任务或类似任务时，会比现在做得更好或效率更高。[1]” 提到学习，我们很自然地第一个会想起人类，学习是人类所具有的一种十分重要的智能行为，可以说人类的进化史就是一个漫长而卓越的学习过程。一个很经典的问题：“假设有一张色彩丰富的油画，画中画了一片茂密的森林，在森林远处的一棵歪脖树上，有一只猴子坐在树上吃东西。如果我们让一个人找出猴子的位置，正常情况下不到一秒钟就可以指出猴子，甚至有的人第一眼就能看到那只猴子。”为什么人可以在成百上千种色彩构成的许多图案中一下就识别出猴子呢？原因很简单是经验，而经验告诉我们的所有信息都是通过以往的学习得到的。比如，提起猴子，我们脑海中就会潜意识出现以前见过的猴子的很多相关特征，只要画中的图案和浮现的猴子特征达到一定的相似度，就可以识别出那个图案是猴子。当然，也可能出现认错的情况，这是因为对某事物特征识别不够精确，还需要进一步学习。机器学习，顾名思义，就是使机器模拟人类的这种学习能力。在计算机界机器一般指计算机，传统意义上，如果我们想让一台计算机工作，只要给它输入一串指令，然后让它遵照这个指令一步步执行下去即可。但机器学习是一种让计算机只能利用数据而不是遵循指令来进行各种工作的方法。那么计算机能否像人一样具有学习能力呢？1959年美国的塞缪尔(Samuel)设计了一个下棋程序，这个程序具有学习能力，它可以在不断的对弈中改善自己的棋艺。4年后，这个程序战胜了设计者本人。又过了3年，这个程序战胜了美国一个保持8年之久的常胜不败的冠军[2]。这个程序向人们展示了机器学习的能力，在计算机领域内造成了巨大的轰动。通过上面的分析，我们可以看出机器学习和人类根据经验思考识别归纳的过程是类似的，不过它能考虑更多的情况，执行更加复杂的计算。事实上，机器学习的一个主要目的就是把人类根据经验思考识别归纳的过程转化为计算机通过对已有数据的处理计算得出某种规律模型，并根据该模型预测未来的方法。经过计算机处理得出的模型能够以近似于人的方式解决很多灵活复杂的问题[3]。 1997年Tom?M.?Mitchell在“Machine?Learning”一书中给出了机器学习的经典定义——“计算机利用经验改善系统自身性能的行为[4]。”实质上，机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎[5]。由于机器不能像人类思维一样根据事物特征自然而然的选择分类方法，所以机器学习方法的选择依然还需要人工选择。目前，根据训练数据集有无标识可将机器学习方法分为三类：监督学习、半监督学习和无监督学习[6]。监督学习是利用一组已知类别的样本调整分类器的参数，使其达到所要求性能。在监督学习下，输入数据被称为训练数据，每组训练数据都有一个明确的标志或结果，也就是根据已知的信息推断未知的信息。其中常见的算法有Nave Bayes、SVM、决策树、KNN、神经网络以及Logistic分析等。半监督学习主要是利用少量标注样本和大量未标注样本进行训练和分类。在半监督学习下，输入数据部分被标识部分未被标识，这类学习方法可以用来预测，但是必须首先知道学习数据的内在结构以便分类，也就是根据少量已知的信息和大量未知的信息进行分类。其中常见的算法有最大期望、生成模型和图算法等。无监督学习中所有数据均不被特别标记，该学习模型是为了推断出数据的一些内在结构，也就是及其完全自学。其中主要的算法有Apriori、FP树、K-means以及目前比较火的Deep Learning。很明显，无监督学习是最智能的，有能实现机器主动意识的潜质，但发展比较缓慢。监督学习是不太靠谱的，从已知的信息推断未知的信息就必须了解事物所有特性，这在现实中往往是不可能的。半监督学习是“没办法中的办法”，既然无监督学习很难而监督学习不靠谱，就只好两者折中各取所长。目前的发展是监督学习技术已然成熟，无监督学习还在起步，所以对监督学习方法进行修改实现半监督学习是目前的研究主流。毫无疑问，在2010年以前，机器学习的应用在某些特定领域发挥了巨大的作用，如车牌识别，网络攻击防范，手写字符识别等等。但是，自从2010年以后，随着大数据概念的兴起，机器学习的大量应用都与大数据高度耦合，几乎可以认为大数据是机器学习应用的最佳场景。但凡你能找到的介绍大数据魔力的文章，都会说大数据如何准确预测到