混合异构数据的清洗、存储、挖掘架构选型与设计策略.pptx

混合异构数据的清洗、存储、挖掘架构选型与设计策略.pptx

混合异构数据的清洗、存储、挖掘架构选型与设计策略

混合异构数据的清洗、存储、 挖掘架构选型和设计策略 提纲 Ø  混合异构数据特点   Ø  混合异构数据分类   Ø  混合异构处理流程   Ø  AdMaster混合异构数据平台架构   Ø  AdMaster数据处理流程   Ø  AdMaster混合异构数据分析   Ø  Q/A   混合异构数据特点 Ø  不同的数据类型   Ø  不同的数据量级   Ø  不同的访问速度   Ø  不同的用户类型   Ø  不同的访问平台   Ø  不同的存储设备   Ø  。。。   混合异构数据分类 数据内容 数据特性 数据结构 使用频率 数据访问量 响应时间 在线数据 短周期数据 字段固定 高度结构化、复杂、适合操作计算 非常高(热数据) KB、MB级 纳秒、微秒、毫秒级 离线数据 长周期(存档、归纳、 计算结果) 字段不固定 结构简单 一般(冷数据) GB、TB、PB级 秒、分钟、小时、天级 数据采集 Internet   非结构化数据 结构化数据   数据预处理 清 洗   集 成   转 换   归 约   原 始 数 据 数 据 存 储 提炼 数据分析 Batch Pig Hive Zookeeper (Tez) Online (HBase) Streaming (MapReduce) (Storm,S4) In-Memory Interactive (Spark) HPC MPI (OpenMPI) YARN Cluster Resource Management HDFS OS(操作系统) Mahout Flume Sqoop Oozie 应用服务 数据展示 互联网广告监测全流程 AdMaster混合异构数据平台架构 Text   Clustering   Storm   Data  API     Text   Categorization   MapReduce   Open  API   API  Service   Data  Mining   System   Distributed   System   Data  Collect   Text  Analysis  API     Sentiment   Analysis   Spark   Crawler   Data  Visualization   App  Layer   JS/AS   R   Front-end  Application  Service   ECharts   AdMaster混合异构数据平台架构 Online MongoDB  Ext4    SSD   Online/ Offline HBase  HDFS    SATA  Disk   Online Mysql  Ext4    SATA  Disk   Realtime Redis  Memory   SSD   Offline HDFS  Ext4    SATA  Disk   RabbitMQ AdMaster数据采集 华南   …   华东   Internet   LVS   华北   LVS   LVS   LVS   DNS   Buzz Resource Others … 广告数据采集 AdMaster数据采集 Ø cat  /proc/sys/net/ipv4/tcp_mem   Ø cat  /proc/net/sockstat   Ø cat  /proc/sys/net/ipv4/tcp_max_orphans   Ø net.netfilter.nf_conntrack_max   Ø net.netfilter.nf_conntrack_tcp_timeout_est ablished   AdMaster离线数据分析 输入拆分 Python 任务引擎 Pig Pig算法1 Pig算法N HDFS •  •  输出合并 MySQL 每天新增  TB  级数据   每天对千亿条记录进行几百种维度的计算   Cascading 内部算法1 内部算法N Hadoop MapReduce 计算模型 Streaming 非固定算法1

文档评论(0)

1亿VIP精品文档

相关文档