- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Hadoop平台中支持向量机分类算法的实现
导 师:李学俊
答辩人:齐夏新
学号:专 业:软件工程
主要内容
1
2
3
4
1
5
6
研究背景及意义
Hadoop及SVM简介
SVM原理
SVM优点及应用举例
研究步骤
时间进度安排
研究背景及意义
分类问题是实际应用中普遍存在的问题,也是及其领域学习的基础条件之一,快速发展的信息技术对其在理论研究和实际应用中提出了许多新的难题和挑战。支持向量机是建立在统计学习理论基础上的新型机器学习方法。它根据有限样本信息在模型的复杂和期望风险之间寻求最佳方式,从而获得更好的泛化性能。支持向量机专门针对有限样本情况,得到现有信息下的最优解,很大程度上解决了模型选择、过学习、非线性、维数灾难等问题。与传统的学习方法相比,支持向量机具有泛化能力强、维数不敏感、收敛到全局最优等优点,较好地解决了传统算法容易出现的过学习、局部极值、维数灾难等棘手问题,成为近几年机器学习领域中的一个非常活跃的研究热点。
Hadoop简介
Hadoop是一个分布式系统基础架构,具有高可靠性、高扩展性、高效性、高容错性等优点
hadoop由两部分组成,分别是分布式文件系统HDFS和分布式计算框架MapReduce。HDFS主要用于大规模数据的分布式存储,而MapReduce 则构建在分布式文件系 统之上,对存储在分布式文件系统中的数据进行分布式计算。
H D F S 是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上。H D F S 能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS架构图
同H D F S 一样,Hadoop MapReduce 也采用了Master / Slave (M /S )架构,它主要由以下几个组件组成:Client 、JobTracker 、 TaskTracker 和Task 。
Hadoop MapReduce 架构图
SVM简介
支持向量机(Support Vector Machine或SVM)是一种建立在统计学习理论Statistical Learning Theory或SLT基础上的机器学习方法。与传统统计学相比,统计学习理论SLT是一种专门研究小样本情况下及其学习规律的理论。该理论是建立在一套较坚实的理论基础之上的为解决有限样本学习问题提供了一个统一的框架。它能将许多现有方法纳入其中有望帮助解决许多原来难以解决的问题。
SVM原理
支持向量机SVM是一种分类算法,通过寻求结构化风险最小来提高学习机泛化能力,实现经验风险和置信范围最小化,从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。
1. 在n维空间中找到一个分类超平面,将空间上的点分类。
SVM原理
2. 一般而言,一个点距离超平面的远近可以表示为分类预测的确信或准确程度。SVM就是要最大化这个间隔值。而在虚线上的点便叫做支持向量Supprot Verctor。
SVM优点及举例
SVM学习问题可以表示为凸优化问题,因此可以利用已知的有效算法发现目标函数的全局最小值。而其他分类方法(如基于规则的分类器和人工神经网络)都采用一种基于贪心学习的策略来搜索假设空间,这种方法一般只能获得局部最优解。
应用举例:假设现在你是一个农场主,圈养了一批羊群,但为预防狼群袭击羊群,你需要搭建一个篱笆来把羊群围起来。但是篱笆应该建在哪里呢?你很可能需要依据牛群和狼群的位置建立一个“分类器”,比较下图这几种不同的分类器,我们可以看到SVM完成了一个很完美的解决方案。
研究步骤
1. 对所选课题进行分析,Hadoop平台中支持向量机分类算法的实现,了解Hadoop平台,对资源管理模型(yarn),计算模型(mapreduce),存储模型(hdfs)有一定的认识。
2. 结合支持向量机的方法及其原理,利用分布式编程来实现支持向量机的分类算法,最后在分布式系统Hadoop中来运行。
3. 完成支持向量机的分类算法,并在数据集中进行测试。
时间进度安排
1. 2.21-3.21 学习Hadoop,mapreduce的概念及原理,准备开题报告
2. 3.22-4.10 开题答辩。Hadoop集群操作,使用mapreduce编程实践
3. 4.11-4.30 学习支持向量机分类算法
4. 5.1-5.20 开始撰写提交论文初稿
5. 5.21-5.30 整理并完善论文,准备答辩
文档评论(0)