基于Hadoop云平台海量数字图像数据挖掘分析.docVIP

下载本文档

15
0
约3.07千字
约 7页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop云平台海量数字图像数据挖掘分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop云平台海量数字图像数据挖掘分析

基于Hadoop云平台海量数字图像数据挖掘分析　　摘要：Hadoop云平台在各个领域当中都有着极其广泛的应用，结合云计算技术等，对相关数据管理水平的提升具有重要价值。因此，本文就基于Hadoop云平台的海量数字图像数据挖掘进行有效分析，简要介绍了数字图像处理流程中的预处理与特征空间构建两个环节；然后，对海量数字图像数据挖掘系统构建的硬件设备、软件环境、继承开发平台等构建进行了细致分析。　　关键词：Hadoop云平台数字图像数据挖掘　　中图分类号：TP393 文献标识码：A 文章编号：1674-098X（2017）11（b）-0113-02 　　数据挖掘就是在相关数据库、信息库等存储的海量数据当中提取有效知识的过程，这些知识本身具有一定的未知性、实用性以及有效性，隐藏于大量数据当中，需要通过寻找信息库中数据之间的联系来进一步有效获取到所需知识。而Hadoop云平台作为一种开源的分布式计算平台，能够为数据挖掘提供有效支撑，基于Hadoop云平台的海量数字图像数据挖掘，利用其HDFS系统与Map Reduce框架，更容易实现。　　1 数字图像数据挖掘流程分析　　数字图像数据挖掘的整个流程如图1所示，其中的主要流程包括数据预处理与特征空间构建两个环节。　　1.1 数据预处理　　基于Hadoop云平台的海量图像数据挖掘过程需要以数据预处理的有效实现为基础，在这一过程中，首先应明确针对图像数据预处理的必要性。在正式展开挖掘之前，对图像数据进行预处理，能够避免原信息库中的图像数据中存在的病毒等脏数据或已经损坏的数据影响数据挖掘过程的顺利性。例如，数据库中存在的分辨率极低的图片、无法打开的被破坏的图像信息，若未对其进行预处理就直接展开数据挖掘，则会使数据挖掘古城陷入混乱，形成不可靠、无意义的输出，影响挖掘效率与质量。一般来说，针对图像数据的预处理包括图像数据选择、清理以及检查。　　1.2 数据特征空间构建　　构建图像数据特征空间立方体，能够方便对大型的图像信息库进行多为分析，在进行图像提取的过程中，可将其分为两个层次，其一是底层特征提取，其二是高层特征提取[1]。其中，高层特征提取，多基于语义的层次高度；包括行为分析与人脸识别等在内的特征则都要通过底层特征提取。图像数据底层特征是图像分析的基础部分，其中的颜色、文理与形状的计算表简单、性能稳定特定更加突出。　　除此之外，图像文件名称、尺寸、创建时间、格式、文件描述中的关键字也可以作为图像文件特征，通过有效收集构建特征立方体，将其用于后续数据挖掘的处理，显著提升数据挖掘效率与质量。　　2 数字图像数据挖掘系统构建　　2.1 硬件设备构建　　Hadoop云平台构建过程中，相关节点的选择都以普通硬件厂商生产的标准化商业计算机。由此种硬件设备相比与低端计算机以及大型数据库级别的计算器，性能与性价比都更符合相关应用需求。基于Hadoop平台的海量数字图像数据挖掘系统，同样可选择这种商用计算机，其基本硬件配置如下：4×1TB的SATA硬盘作为存储器；两个四核CPU作为处理器，其频率应达到2～2.5GHz之间；16～24GB内存的DRAM，应具备查错与纠错的功能。有效选取节点之后，还应对满足其通信需求的交换机进行选择，以1GB为宜，系统内部网络则以千兆以太网为宜。　　2.2 软件环境构建　　Hadoop云平台的主体语言是Java，同时也是其运行基础，在任何具备JVM的平台上都能够正常运行，但需要注意的是，控制脚本一类的代码需要为其建立Unix环境才能顺利执行，所以Hadoop云平台无法在非Unix平台上运行。建立基于Hadoop云平台的数字图像数据挖掘系统，可采用Ubuntu Linux系统为各个商业计算机节点的相关操作提供支持。　　构建完整、有效的软件环境，需要相关节点完成以下步骤：（1）有效安装Java，建议采用JDK，以满足Hadoop平台的运行需求；（2）建立统一的账号形式的Hadoop云平台用户账号，由此能够区别本机与Hadoop云平台之间的不同服务，同时方便整个系统的有效管理；（3）以实际IP地址的分配状况进修改节点配置文件；（4）安装协议软件，Hadoop云平台的控制脚本依赖SSH协议软件，需要通过密钥对，配置无密码的SSH登录。　　完成上述步骤之后，再进一步搭建海量数据挖掘系统Hadoop云平台。搭建过程中，采用H Base作为分布式开源数据库，在Hadoop分布式文件系统的基础之上，所提供的全部功能与Google文件系统中Big Table数据库相似。此种数据库的应用，其主要目的是处理较为庞大的表，将其应用与普通计算机当中，能够快速处理约10亿行的数据，另外，该数据库中存在的由数百万列元素构成的表，能够充分满足海