Hadoop环境下关于BoF模型的图像分类方法研究.pdf

Hadoop环境下关于BoF模型的图像分类方法研究.pdf

摘 要 摘 要 当前我们正处在一个数据爆炸式增长的大数据时代,在大数据中,主要以半结构 化和非结构化的数据为主,例如文本、图像和视频等。同时,挖掘分析这些多媒体资 源也成为人们收集信息的重要途径,而对于图像数据的挖掘,图像分类是一个基本且 重要的问题。近年来 BoF 图像表示模型在图像分类领域得到了广泛的应用与研究, 也取得了较好的性能。但是大多数的研究关注的是中等规模的图像数据集,这些数据 集是能够放入单台计算内存的。显然面对当下大规模的图像数据,这些单机的处理算 法是不合适的。在海量文本数据分析领域,Hadoop 作为一个优秀的分布式处理平台 得到了广泛应用。对于大规模的图像分类应用而言,如果能够结合Hadoop 以及BoF 图像模型,将基于BoF 模型的图像分类技术用于大规模数据集的图像分类将是很有 意义和应用前景的。 本文首先研究分析了传统的 BoF 构建过程以及核心算法,包括图像特征的提取 与表示、视觉词典的生成以及图像的BoF 表示等算法。然后通过扩展Hadoop 平台的 支持数据类型,使得海量图像数据能够在Hadoop 平台方便地表示、存储和处理。同 时将Opencv 开源计算机视觉库集成到Hadoop ,使得在Hadoop 平台能够方便地应用 一些现有的计算机视觉算法。最后研究分析了 MapReduce 框架下算法设计方法和模 式,结合Opencv 开源计算机视觉库,提出了BoF 构建过程中的图像特征提取与表示 的MapReduce 算法。使用Mapper 内合并MapReduce 算法设计模式改进了用于视觉 词典构建的现有PKMeans 聚类算法,在减少Map 和Reduce 之间传输数据量的同时 提高了算法速度。分析对比了在生成 BoF 图像表示时的视觉单词的加权策略,提出 了生成图像的BoF 表示的MapReduce 算法。在研究了分布式SVM 训练方法的基础 上,结合 SMO 支持向量机训练算法,提出 Hadoop 平台上的支持向量机训练的 MapReduce 算法。以上核心算法的实现可以处理更大规模的图像数据集。 搭建了实验平台,对比了 MapReduce 算法和单机的算法之间的效率以及适用的 数据集环境,同时也对比了 MapReduce 算法之间的效率以及适用的数据集环境。实 验结果表明,当数据集越来越大时,基于Hadoop 使用BoF 的图像分类技术效率更高, 对分类精度影响很小,能够满足一般的图像分类需求。 关键词:BoF ;图像分类;Hadoop ;MapReduce 算法;大数据 I Abstract Abstract Nowadays, we are living in an age with BigData which increases explosively. Most of the data is semi-structured or non-structured in BigData, such as text, image, and video. At the same time, Mining from these multimedia resources and analyzing them become an important way to collect information. For mining from image data, image classification is a basic and important task.BoF image representation model has been broadly applied and studied in image classification area in recent years, and it has achieved

文档评论(0)

1亿VIP精品文档

相关文档