大数据下的机器学习.docVIP

下载本文档

46
0
约3.52千字
约 6页
2016-12-16 发布于重庆
举报
版权申诉

大数据下的机器学习.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《程序设计方法学》课程论文题目：大数据下的机器学习通信与信息工程学院 1014010216 唐川宗平 2014/2015学年第二学期大数据下的机器学习摘要：随着产业界数据量的爆炸式增长，大数据概念受到越来越多的关注。由于大数据的海量、复杂多样、变化快的特性，如何有效利用大数据中的信息，并使用这些信息提高生产率成为迫切需要解决的问题。机器学习是解决这类问题的有效方法之一。因此，研究大数据环境下的机器学习算法成为学术界和产业界共同关注的话题。本文旨在对机器学习的一些基本算法和在大数据环境下机器学习大概面临的一些问题进行初步介绍。关键词大数据时代来临经过20余年的努力，Internet已获得巨大的成功，由此，人们可以在不同时间与地域获取自己希望获得的信息。然而，有效获得信息是一回事，获得的信息是否能够有效且方便地使用则是另一回事。目前的现状是大量可以有效获得的信息，大约只有10%可以被使用，消耗了大量资源的信息不仅未能够被有效地使用，而且由于有用的信息正在更深地被掩埋在无用信息之中，变得更难以利用。花费了大量人力物力而获得信息，却无法有效使用，长此以往，这将与未获得信息无区别。如何有效利用这些被掩埋的有用信息已成为信息产业继续兴旺发展的关键。大数据定义大数据特点：大数据有多方面的特点，从最开始的3V模型到目前扩展的4V模型就是以大数据的特点命名的。3V模型包括体积(Volume)，速度( Velocity)和多样性(Variety)；4V模型中的第4个V有多种解释，如变化性( Variability)，虚拟化( Virtual)或价值(Value)。针对这些特点，大数据时代知识解析、机器智能与人类智能协调工作及智能分析系统将会扮演重要角色，人们需要一种智能分析接口将人类与计算机世界连接，否则将被淹没在大数据的洪流中。机器学习自从计算机被发明以来，人们就想知道它能不能学习。机器学习从本质上是一个多学科的领域。它吸取了人工智能、概率统计、计算复杂性理论、控制论、信息论、哲学、生理学、神经生物学等学科的成果。机器学习的研究主旨是使用计算机模拟人类的学习活动，它是研究计算机识别现有知识、获取新知识、不断改善性能和实现自身完善的方法。这里的学习意味着从数据中学习，它包括有监督学习(Supervised Learning ) 、无监督学习(Unsupervised Learning)和半监督学习(Semi -Supervised Learning) 三种类别。有监督学习需要对已知的样本进行训练得到算法模型，然后对未知样本的度量结果（或者说是标签）进行预测；而无监督学习则是直接预测未知样本的度量结果，没有实现训练的过程；而半监督学习就是介乎两者之间的机器学习方法。传统机器学习面临的一个新挑战是如何处理大数据。目前，包含大规模数据的机器学习问题是普遍存在的，但是，由于现有的许多机器学习算法是基于内存的，大数据却无法装载进计算机内存，故现有的诸多算法不能处理大数据。如何提出新的机器学习算法以适应大数据处理的需求，是大数据时代的研究热点方向之一。大数据环境下的机器学习算法大数据分类有监督学习(分类) 面临的一个新挑战是如何处理大数据。目前包含大规模数据的分类问题是普遍存在的，但是传统分类算法不能处理大数据．支持向量机分类。SVM 法即支持向量机( Support Vector Machine) 法，由 Vapnik 等人于1995年提出，具有相对优良的性能指标。该方法是建立在统计学习理论基础上的机器学习方法。通过学习算法，SVM可以自动寻找出那些对分类有较好区分能力的支持向量，由此构造出的分类器可以最大化类与类的间隔。因而有较好的适应能力和较高的分率。该方法只需要由各类域的边界样本的类别来决定最后的分类结果。决策树分类。决策树可看作一个树状预测模型，它通过把实例从根节点排列到某个叶子节点来分类实例，叶子节点即为实例所属的分类。决策树的核心问题是选择分裂属性和决策树的剪枝。决策树的算法有很多，有ID3、C4.5、CART等等。这些算法均采用自顶向下的贪婪算法，每个节点选择分类效果最好的属性将节点分裂2个或多个子结点，继续这一过程直到这棵树能准确地分类训练集，或所有