- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2014 年 10 月JournalofGuil
2014 年 10 月
JournalofGuilinUniversityofElectronicTechnology
Oct.2014
用于海量图像存储与处理的 Hadoop扩展
付
波 ,黄 廷 磊
(桂林电子科技大学 计 算 机 科 学 与 工 程 学 院 ,广 西 桂 林
541004)
摘 要 :为应对海量图像 、视频对存储与分析带来的挑战 ,提 出 扩 展 Hadoop支 持 数 据 类 型 ,同 时 集 成 OpenCV 开 源 库 ,实 现
了 基 于 Hadoop和 OpenCV 的计算机视觉分布式处理平台 。 测 试 结 果 表 明 ,该扩展方式较目前在 Hadoop平台下广泛使用 的图像表示与存储方式更为高效 ,为开发分布式计算机视觉算法提供了高效的基础平台 。
关 键 词 :Hadoop;MapReduce;计 算 机 视 觉 ;OpenCV
中 图 分 类 号 :TP393
文 献 标 志 码 :A
文 章 编 号 :1673-808X(2014)05-0364-05
AnextensionofHadoopusedtostoreandprocesslargescaleimagedataset
FuBo,HuangTinglei
(SchoolofComputerScienceandEngineering,GuilinUniversityofElectronicTechnology,Guilin541004,China)
Abstract:Inordertofigureoutthechallengeofthemassiveimageandvideostorageandanalysis,thispaperextendstheHa- doopsupportedclasstoimage,andintegratesOpenCVopensourcelibraryintoHadoop.Thus,adistributedimageprocess- ingplatformbasedon HadoopandOpenCVisimplemented.Theexperimentaldatashowsthatthisextentdatatypeismore efficientonthewildlyrepresentationandstoreformonHadoop.Itprovidesareliableplatformfordevelopingthedistributed algorithminthecomputervision.
Keywords:Hadoop;MapReduce;computervision;OpenCV
随 着 社 交 网 络 和 移 动 互 联 网 的 兴 起 ,网 络 空 间 的
图 像 、视 频 数 据 急 剧 增 长 ,高效存储并分析此类数据 成 为 一 个 巨 大 的 挑 战 。 目 前 ,Hadoop 分 布 式 平 台 已 广 泛 应 用 于 基 于 文 本 大数据集的数 据分析与挖掘领 域 ,许 多图像处理 和 计算机视 觉 算法同样适用于大数 据 集 ,但 这 些 算 法 往 往 受 限 于 单 台计算机的计算能 力 ,通 常 相 关 算 法 按 照 参 数 、图像甚 至像素等维度并
行 化[1],然 后 使 用 消 息 传 递 接 口 (messagepassingin-
terface,简 称 MPI)实 现 这 些 算 法 。 然 而 ,由 于 MPI
需 处 理 并 行 算 法 各 部 分 的 通 信 细 节 ,其复杂性甚至超 过 算 法 本 身 的 计 算 复 杂 性 。MapReduce框 架 较 MPI 在 并 行 处 理 上 提 供 了 更高层次的抽 象及更简单的编 程 模 型 ,它 屏 蔽 了 并行模块之 间底层的通信细节 ,从 而 使 用 户 能 将 精 力 集 中 于 算 法 本 身 的 设 计 。 目 前 , MapReduce编 程 框 架 已 应 用 于 人 脸 检 测 [2]和 地 标 分 类[3]等处 理图像的算法 设 计 中 。
由 于 原 始 的 Hadoop 平 台 没 有 支 持 图 像 的 数 据
类 型 ,通 常 的 方 法 是 利 用 base64 等 编 码 方 式 将 图 像
编 码 成 UTF8格 式 的 文 本 信 息 ,再 利 用 Hadoop内 建 的 Text数 据 类 型 将 该 文 本 信 息 存 储 为 HDFS 中 的 TextFile文 件 格 式 ,其 中 文 件 的 每 一 行 为 一 幅 图 像 的 编 码 信 息 ,然 后 在 处 理 数 据 时
原创力文档


文档评论(0)