- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
⼤数据平台架构技术选型
与场景运⽤
张逸
⼤眼科技联合创始⼈ CTO
监控 部署
云端
数据库
数据采集 数据存储 数据处理
⽂件
WEB
资源 其他
数据源
数据源的特点
来源 结构 可变性 数据量
内 外 ⾮ 结 不 修 ⼤ ⼩
部 部 结 构 变 改
数 数 构 化 可 删
据 据 化 添 除
加
数据源的特点决定了
数据采集与数据存储的技术选型
内部数据
来⾃企业内部系统,可以采⽤主动写⼊技术(push),从⽽保证变更数据及
时被采集。
CRM
外部数据
api调⽤
⺴络爬⾍
⾮结构化数据 结构化数据
不变可添加
如果数据源的数据是不变的,或者只允许添加(通常,数据分析的事实表,
例如银⾏交易记录等),则采集会变得⾮常容易,同步时只需要考虑最简
单的增量同步策略,维持数据的⼀致性也相对变得容易。
可修改可删除
数据源的数据有些可能会修改或删除,尤其是许多维表经常需要变动。要
对这样的数据进⾏分析处理,最简单的办法就是采⽤直连形式。如果要进
⾏数据采集,就要考虑同步问题。
⼤数据量
lambda架构
⼀个典型的数据加载架构
数据存储的技术选型
取决于数据源的类型与数据的采集⽅式
取决于采集后数据的格式与规模
取决于分析数据的应⽤场景
⼤数据平台 相同的业务数据会以多种不同的表现形
式,存储在不同类型的数据库中,形成
特征 ⼀种poly-db的数据冗余⽣态。
场景⼀:舆情分析
针对某⼿机品牌的舆情分析。客户提出的需求是能够对舆情数据进⾏全⽂本
搜索。舆情数据最⾼可能达到70亿条,⽽全⽂本搜索的性能指标要求响应时
间控制在10s以内。
场景⼀:舆情分析
kafka 流处理集群 语义分析
kafka
⺴⻚ 语⾳分析服务器
文档评论(0)