海量数据处理的架构与实践 v1.0.pdf

海量数据处理的架构与实践 王延炯王延炯 企业级数据领域企业级数据领域 非实时数据整合(批处理) 数据数据 数据数据 数据源 发布 可视化 实时数据整合实时数据整合((流处理流处理)) 数据治理数据治理((元数据元数据、、数据标准数据标准、、数据质量数据质量)) 数据治理 企业数据的规模企业数据的规模、采集和存储采集和存储 100+100+ RDBMSRDBMS 业务系统 TXT 规模 存储 HDFS 100,000+ 10,000+ NoSQL 字段 数据库表 HBase SQLSQL 存储过 程 Map 采集 Reduce 脚本 Java 数据治理 从海量数据中获取价值的关键环节从海量数据中获取价值的关键环节 数据质量低 难以实时分析 海量数据分析挖掘能力 质量质量 实时实时 基于数据流实时分析处理基于数据流实时分析处理 数据 多元多元数据集成能力数据集成能力 海量海量 集成集成 大数据治理能力 难以处理海量数据难以处理海量数据 复杂数据集成复杂数据集成 面向大数据的新一代数据平台 银行业银行业 ::数据质量提升数据质量提升 近年来,银监会非现场监管信息系统和客户风险统计信息系统不断完善,数据及 时性和全面性基本可以保证,但在准确性上存在较大差距。 2009年—2011年,银监会统计部先后组织对7家银行开展统计现场检查,累计 发出了345份事实确认书,发现了5000多亿元的数据差错。 2011年,银监会启动银行业数 据质量提升工作据质量提升工作。 数据治理在技术平台的三个方面数据治理在技术平台的三个方面

文档评论(0)

1亿VIP精品文档

相关文档