刘春霞:大数据成功关键25.pptxVIP

  • 6
  • 0
  • 约1.42万字
  • 约 25页
  • 2020-06-12 发布于浙江
  • 举报
大数据成功关键 - - 高效地实现大数据的移动刘春霞liuchunx@IBM软件部资深信息整合顾问信息治理治理质量生命周期安全和隐私标准InfoSphere:维护信息供应链事务和协作应用分析业务分析应用整合内容分析大数据主数据管理多维数据集整合和清洗流数据数据仓库内容外部信息源流信息需要敏捷和可靠的数据访问敏捷用户想要快速地访问数据,几分钟内和小时级内(如自主的数据整合)对分析的需求权威性 在一个流程框架内内的可靠信息避免信息冗余Thirst for Information可靠信息移动的速度两者都需要!任何数据ETL / ELTETL / ELTELT批量数据整合(用于大数据)任何数据到大数据大数据到任何数据大数据中心加载获益利用探索性分析方法最佳性能/最小批处理窗口和实时流数据将现有的企业数据引入一个探索性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动化一个低成本数据暂存区域的工具对数据的推送处理(不是其他方法)提取获益从多种来源提取数据:机器数据、社交数据、多结构成熟的整合工具,更高的生产力数据中心获益以大数据形式产生和分析的数据 – 从不清除用于完成大数据运行时内的工作的图形工具InfoSphere BigInsights 的批量数据整合集市DataStageDataStageBigInsightsHadoop数据库仓库FilesFiles并行写入并行读取细节和摘要集市 数据仓库子集文件大数据文件组件与大数据来源交换信息将企业信息转移到大数据来源,使它可包含在分析中获取 Hadoop 的分析结果,并将它们应用于其他 IT 解决方案并行性和规模对 HDFS 的支持通过信息服务器并行引擎提供了大规模可伸缩性作业血统与大洞察来源/目标步骤使用信息服务器中的扩展性功能使用 BDFS 作为来源BDFS 引入了新来源选项 Namenode Cluster Host 和 PortBDFS 可并行读取文件模式BDFS 可使用 Readers 选项并行读取单个文件BDFS 数据流程图BDFS 使用多个读取器流程并行化 HDFS 读取数据数据节点PX文件请求BDFS名称节点PXBDFS数据InfoSphere DataStage使用 BDFS 作为目标BDFS 引入了新的目标选项 Namenode Cluster Host 和 PortBDFS 通常写入单个文件BDFS 能够并行写入多个文件BDFS 示例 分析作业输出风险分类客户情绪倾向性分析作业可以通过分析电子邮件在 InfoSphere BigInsights 中执行。客户情绪倾向性摘要将被更新到仓库中。InfoSphere DataStage 作业将挑选信息并更新数据仓库(使用 SCD 阶段的客户维度)可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。Information Server – Big data integrationBDFS:可扩展性和性能BigInsights NodesServers: x3630 M3Number of Systems: 26 (5 used for the test)CPU: Intel(R) Xeon(R) CPU X5675 @ 3.07GHzMemory: 48GBStorage: 4TBDataStage Nodes (2)Server: Intel Westmere-EX (4 sockets)CPU: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHzStorage: 1TB Information Server – Big data integrationBDFS:可扩展性和性能- 读写都具有近线性的可扩展能力- 最高可达5.2 TB/小时- DataStage节点翻倍,处理效率翻倍直至磁盘资源全部占用平衡的优化 – 从 DataStage 生成 Hadoop MapReduce 作业使用 DataStage Design 流程生成 ETL 作业使用 Balanced Optimization 将其编译为在 BigInsights 上运行。将支持完全下推 – Hadoop 内的所有处理(如果可能)混合下推 – 内部的一些处理和外部剩余处理,具体取决于来源和目标自动化的大数据作业生成通过Information Server和Hadoop 数据文件系统 (HDFS)的 整合,强化了IBM在大数据的领导地位通过 Job Sequencer 对 Big Insights 和其他 MapReduce 作业进行编程调用,结合 DataStage 和 Hadoop 实现端到端工作流。利用设计器用户界面和标准阶段结构来生成 MapReduce 作业,为用户提供处理 BigData 来

文档评论(0)

1亿VIP精品文档

相关文档