基于Hadoop平台的随机森林算法研究及图像分类系统实现分析The random forest algorithm based on Hadoop platform research and analysis of image classifiation system.docx

基于Hadoop平台的随机森林算法研究及图像分类系统实现分析The random forest algorithm based on Hadoop platform research and analysis of image classifiation system.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Hadoop平台的随机森林算法研究及图像分类系统实现分析The random forest algorithm based on Hadoop platform research and analysis of image classifiation system

{llI|Ⅷ㈣删Ⅷ㈣《川舢ⅧlY2536959 {llI|Ⅷ㈣删Ⅷ㈣《川舢Ⅷl Y2536959 厦门大学学位论文著作权使用声明 本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》 等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位 论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及 其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、 硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇 编出版,采用影印、缩印或者其它方式合理复制学位论文。 本学位论文属于: ( )1.经厦门大学保密委员会审查核定的保密学位论文, 于 年 月 日解密,解密后适用上述授权。 (√)2.不保密,适用上述授权。 (请在以上相应括号内打“√”或填上相应内容。保密学位论文 应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密 委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认 为公开学位论文,均适用上述授权。) 声明人c㈣:雩怕彩 山/华年r月乙/日 摘要随着互联网和多媒体技术的不断发展,海量的图像资源和数据涌入互联网, 摘要 随着互联网和多媒体技术的不断发展,海量的图像资源和数据涌入互联网, 它们深刻地影响着我们的日常生活,此时对于图像内容准确地理解显得尤为重要。 图像分类技术融合了机器学习、人工智能等学科的先进思想和理论,旨在将原本 无序分布的大批量的图像数据进行有序地归类,是解决图像理解问题的基础。随 机森林算法建立在决策树模型基础之上,它是多棵决策树的组合,在分类场景中 得到广泛应用。作为~种优秀的分类器模型,也为图像分类提供了新的思路。但 当图像资源的数据量特别大时,分类将是一个十分耗时的过程。为了解决以上问 题,本文结合Hadoop开源分布式计算平台,研究图像处理过程的并行化以及利 用MapReduce并行计算模型对随机森林算法进行了分布式并行设计以提高对大 规模图像分类的效率。 首先,本文介绍了Hadoop平台,主要包括HDFS文件系统以及MapReduce 框架:接着,分析了图像分类的关键技术,总结了图像分类中常用到的一些特征, 重点介绍SIFT特征和Bagofvisual Wbrds特征代表的实现过程,并阐述了几类 重要的模式分类方法;随后,重点介绍随机森林算法,并在此基础之上,结合 MapReduce计算框架,对随机森林模型构建过程进行双重并行化的改进,以提高 随机森林算法的运行效率;然后,基于以上研究成果,本文构建了基于Hadoop 平台的图像分类原型系统,包括Had00p平台下处理图像接口的实现、基于 DenseSiR算法的特征采样过程、基于BoVW模型表示图像、构建图像的空问金 字塔模型和利用改进后的随机森林算法进行分类器的训练共五个部分。最后,通 过实验验证了基于Hadoop平台的图像并行化处理地有效性,同时证明并行化的 随机森林算法相比较于单机版的随机森林,处理过程所消耗的时间大为缩短,并 取得了不错的分类效果。 基于Hadoop平台的图像并行化处理过程,大大提高了海量图像处理过程的 速度,同时针对于图像分类,改进后的随机森林算法在效率上有了明显的提高。 关键词:图像分类;随机森林;Hadoop;SIFT;词袋模型 PAGE PAGE IV AbstractWith Abstract With the developmem of Intemet and multimedia techn0109y,large。scale digital image aJld data has come into Intemet and cha工19e our liVes.n’s Very imponant to 1et computer understand image’s content in detail.Inte唱rated with other subjects like machine leaming,anificial intelligence aIld etc,the goal of image classification technology is to categorize a large number of digital images imo a certan class automatically.Image classification is Very imponant to solVe image underStanding problem.RaJldom forest algorithm is based on decision tree model.It is made up of a series of decision trees

文档评论(0)

186****0507 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档