深入了解机器学习.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深入了解机器学习

深入了解机器学习与数据挖掘 随着互联网技术的发展,特别是web2.0时代的到来,互联网为我们提供了丰富的数据来源,如何充分的利用这些数据,挖掘用户信息,是下一代互联网急需解决的问题。 机器学习和数据挖掘主要是解决以下几个方面的问题,分类与预测,优化,独立特征提取等。机器学习的很多算法都是基于以下图1中模型来进行设计。 图1 学习系统模型 我们应对外界环境的刺激输入,在实践的过程中不断学习,获取经验知识,并且运用我们所学到的经验知识指导我们日常生活实践,通过实践效果的反馈,也就是所获得的经验教训,从而不断更新积累我们的阅历知识,并且在以后的生活中,将自己的经验知识学以致用。机器学习的两个主要步骤就是获取经验和学以致用。在分类中获取经验,其实就是设计分类器,而学以致用正是实践和验证分类器。在预测中,获取经验就是获取事物发展的规律,从而预测事物发展的趋势,也就是学以致用。 现在机器学习的算法多是设计一些模型(即分类器),通过导师学习来训练出模型的参数,此处的模型参数就是我们所获取的经验知识,然后将测试数据或是待分类的数据输入到模型中,既可以得到分类或预测的结果(此过程就是一个学以致用实践的过程)。在神经网络中,我们是要训练各神经元之间的连接权值,而SVM,我们是要训练分类超平面的y=wx+b中的w,b通过带入一个样本代入既可以得到。x是数据的特征向量,y是分类标识。决策树中是通过训练出一颗决策树作为分类器,贝叶斯模型则是通过概率模型来进行预测。 监督学习_分类与预测 分类主要是根据事物的某些属性对其进行归类。而预测主要是根据已有的信息对未知的某一趋势进行预测。在第一期的讨论中,如何将已知的知识和未知的问题联系起来,利用已知的知识来解决未知的问题?分类和预测问题可能能给与你一些启发。以下我们采用黑盒的方法来分析分类与预测问题。 通过机器学习的方法进行分类预测的时候,主要包括输入和输出。 输入:训练数据,测试数据 输出:训练结果,分类结果 训练数据就是一些已知了正确答案的典型例题,而测试数据就是待分类数据,也可以理解为老师给我们的测试题,测试我们学习的结果。 训练结果就是老师循循善诱的分析例题,每一步骤所得到的结果(试想以前数学解题中的综合分析法),比较每一步骤的结果与正确答案还相差多远,我们每次逐步调整我们的思路,一步一步得到正确答案。而分类结果就是我们运用老师讲解例题时所传授的解题方法解答测试题所得的答案。 各输入输出一般的形式化表达如下: 训练数据:(特征向量,目标向量(即分类标识)) 测试数据:特征向量 训练结果:输出向量 分类结果:输出向量 特征向量其实就是对数据的抽象,抽象就是抽取本质特征的过程。当然具体抽取什么样的特征,视具体应用而定。比如影像数据其是包含丰富信息的,我们一般是抽象其为一个二维的亮度值矩阵。此时每一个像素点为一个数据,而特征向量就是各个波段的灰度值序列。如:(B1,B2,B3,B4, B5, B6) 目标向量在此是表征每一个像素属于某一类地物的概率。比如将一副影像分为6类地物。则目标向量的维度则为6,每一分量表征的是属于某一类的概率。比如在训练数据属于第1类的目标向量为(1,0,0,0,0,0)。目标向量的维度一般为类别数n,而若属于第i类则,则目标向量第i分量为1,其余为0。其意义表征该像素完全属于第i类。 输出向量的格式和目标向量是一样的,其也是表征每一个像素属于某一类地物的概率。不同的是目标向量是用于训练数据中,而且一般是人为事先指定属于给类别的概率。而输出向量则是将测试数据输入到分类器,分类器分析得到的分类结果。输出向量的维度也是类别数n,每一分量的取值一般为[0,1]。假如输出向量第i分量最大,我们则视其属于第i类。 了解输入输出对我们使用一些分类器进行分类有很大的帮助。在决定输入输出,最关键的是样本数据(训练数据与测试数据)的选择以及特征提取,还有假设评估。这些直接关系到我们学习到的经验知识是否货真价实,是否真的解决问题,也就是说训练得到的分类器是否能有效正确的进行分类预测。对于样本数据的选择,我们要选择足够多的样本,并且是比较典型的样本数据,能够反映总体数据或是测试数据整体特性的数据;对于特征提取算法的选择也非常重要,因为这关系到特征向量的质量,常用的特征提取有主成分分析,以及非负矩阵因式分解等;对于假设评估就是验证分类器分类的效果。一般用分类正确率来衡量。 神经网络与SVM 我们以下图介绍黑盒分类器(如神经网络,SVM等)涉及的思想。 图2 机器学习过程 上图就是一个学习训练过程。当通过训练数据训练得到分类器之后,我们将测试数据或是待分类数据输入到分类器中,上图蓝色线所标注的过程就是一个学以致用的过程。而蓝色线和红色线标注的整个过程就是一个获取经验知识的过程,这个过程是在边学习边实践。 B

文档评论(0)

jjkk585 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档