- 1
- 0
- 约1.44万字
- 约 43页
- 2017-08-26 发布于广东
- 举报
* Storm Storm 10 1 Storm 2 Storm 3 Storm Topology 4 5 Storm 6 ~ 8 DRPC Trident 9 Storm 10 Storm / 2014.8 Storm Storm . . ISBN 978-7-121-22649-6 . S . . . TP274 CIP 050578 (2014) 173 100036 900×1280 1/32 5.75 91 8 8 1 1 2014 2014 4000 59.00 010 zlts@ dbqq@ 010第 1 章 Storm 基础 Storm 实战:构建大数据实时计算 1.1 Storm 能做什么 在 大 数 据 处 理 方 面 , 相 信 大 家 已 经 对 Hadoop 耳 熟 能 详 了 , Hadoop 处 理 的 是 存 放 在 其 分 布 式 文 件 系 统 HDFS 上 的 数 据 , Hadoop 使 用 磁 盘 作 为 中 间 交 换 的 介 质 , 在 对 海 量 数 据 进 行 离 线 分 析 时 得 心 应 手 ,但 处 理 实 时 数 据 流 却 是 力 有 未 逮。 Storm 是 一 个 开 源 的 分 布 式 实 时 计 算 系 统 , 可 以 简 单 、 可 靠 地 处 理 大 量 的 数 据 流 。 Storm 有 很 多 使 用 场 景 , 如 实 时 分 析 、在 线 机 器 学 习 、持 续 计 算 、分 布 式 RPC、ETL,等 等 。 Storm 支 持 水 平 扩 展 , 具 有 高 容 错 性 , 保 证 每 个 消 息 都 会 得 到处理,而且处理速度很快(在一个小集群中,每个节点每 秒 可 以 处 理 数 以 百 万 计 的 消 息 )。Storm 的 部 署 和 运 维 都 很 便 捷,而且更为重要的是可以使用任意编程语言来开发应用。 ? 2 第1章 Storm 基础 1.2 Storm 特性 Storm 有 如 下 特 点 。 1.编程模型简单 基 于 Google Map/Reduce 来 实 现 的 Hadoop 为 开 发 者 提 供 了 map、 reduce 原 语 , 使 并 行 批 处 理 程 序 变 得 非 常 简 单 和 优 美 。 同 样 , Storm 也 为 大 数 据 的 实 时 计 算 提 供 了 一 些 简 单 优 美的原语,这大大降低了开发并行实时处理任务的复杂性, 帮助你快速、高效的开发应用。 2.可扩展 在 Storm 集 群 中 真 正 运 行 Topology 的 主 要 有 三 个 实 体 : 工 作 进 程 、 线 程 和 任 务 。 Storm 集 群 中 的 每 台 机 器 上 都 可 以 运 行 多 个 工 作 进 程 ,每 个 工 作 进 程 又 可 创 建 多 个 线 程 ,每 个 线 程 可以执行多个任务,任务是真正进行数据处理的实体,Spout、 3 ? Storm 实战:构建大数据实时计算 ? 4 Bolt 被 开 发 出 来 就 是 作 为 一 个 或 者 多 个 任 务 的 方 式 执 行 的 。 因此,计算任务在多个线程、进程和服务器之间并行进 行,支持灵活的水平扩展。 3.高可靠性 Storm 可 以 保 证 Spout 发 出 的 每 条 消 息 都 能 被 “完 全 处 理 ”, 这 也 是 直 接 区 别 于 其 他 实 时 系 统 的 地 方 , 如 Yahoo! S4。 请 注 意 , Spout 发 出 的 消 息 后 续 可 能 会 触 发 产 生 成 千 上 万 条 消 息 , 可 以 形 象 地 理 解 为 一 棵 消 息 树 , 其 中 Spout 发 出 的 消 息 为 树 根 , Storm 会 跟 踪 这 棵 消 息 树 的 处 理 情 况 , 只 有 当 这 棵 消 息 树 中 的 所 有 消 息 都 被 处 理 了 , Storm 才 会 认 为 Spout 发 出 的 这 个 消 息 已 经 被 “完 全 处 理 ”。 如 果 这 棵 消 息 树 中 的任何一个消息处理失败了,或者整棵消息树在限定的时间 内 没 有 “完 全 处 理 ”, 那 么 Spout 发 出 的 消 息 就 会 重 发 。 考 虑 到 尽 可 能 减 少 对 内 存 的 消 耗 , Storm 并 不 会 跟 踪 消 息树中的每个消息,而是采用了一些特殊的策略,它把消息 树 当 作 一 个 整 体 来 跟 踪 ,对 消 息 树 中
原创力文档

文档评论(0)