网站大量收购闲置独家精品文档,联系QQ:2885784924

大数据平台架构技术选型与应用场景.pdf

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
⼤数据平台架构技术选型 与场景运⽤ 张逸 ⼤眼科技联合创始⼈ CTO 监控 部署 云端 数据库 数据采集 数据存储 数据处理 ⽂件 WEB 资源 其他 数据源 数据源的特点 来源 结构 可变性 数据量 内 外 ⾮ 结 不 修 ⼤ ⼩ 部 部 结 构 变 改 数 数 构 化 可 删 据 据 化 添 除 加 数据源的特点决定了 数据采集与数据存储的技术选型 内部数据 来⾃企业内部系统,可以采⽤主动写⼊技术(push),从⽽保证变更数据及 时被采集。 CRM 外部数据 api调⽤ ⺴络爬⾍ ⾮结构化数据 结构化数据 不变可添加 如果数据源的数据是不变的,或者只允许添加(通常,数据分析的事实表, 例如银⾏交易记录等),则采集会变得⾮常容易,同步时只需要考虑最简 单的增量同步策略,维持数据的⼀致性也相对变得容易。 可修改可删除 数据源的数据有些可能会修改或删除,尤其是许多维表经常需要变动。要 对这样的数据进⾏分析处理,最简单的办法就是采⽤直连形式。如果要进 ⾏数据采集,就要考虑同步问题。 ⼤数据量 lambda架构 ⼀个典型的数据加载架构 数据存储的技术选型 取决于数据源的类型与数据的采集⽅式 取决于采集后数据的格式与规模 取决于分析数据的应⽤场景 ⼤数据平台 相同的业务数据会以多种不同的表现形 式,存储在不同类型的数据库中,形成 特征 ⼀种poly-db的数据冗余⽣态。 场景⼀:舆情分析 针对某⼿机品牌的舆情分析。客户提出的需求是能够对舆情数据进⾏全⽂本 搜索。舆情数据最⾼可能达到70亿条,⽽全⽂本搜索的性能指标要求响应时 间控制在10s以内。 场景⼀:舆情分析 kafka 流处理集群 语义分析 kafka ⺴⻚ 语⾳分析服务器

文档评论(0)

allap + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档