- 6
- 0
- 约1.42万字
- 约 25页
- 2020-06-12 发布于浙江
- 举报
大数据成功关键 - - 高效地实现大数据的移动刘春霞liuchunx@IBM软件部资深信息整合顾问信息治理治理质量生命周期安全和隐私标准InfoSphere:维护信息供应链事务和协作应用分析业务分析应用整合内容分析大数据主数据管理多维数据集整合和清洗流数据数据仓库内容外部信息源流信息需要敏捷和可靠的数据访问敏捷用户想要快速地访问数据,几分钟内和小时级内(如自主的数据整合)对分析的需求权威性 在一个流程框架内内的可靠信息避免信息冗余Thirst for Information可靠信息移动的速度两者都需要!任何数据ETL / ELTETL / ELTELT批量数据整合(用于大数据)任何数据到大数据大数据到任何数据大数据中心加载获益利用探索性分析方法最佳性能/最小批处理窗口和实时流数据将现有的企业数据引入一个探索性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动化一个低成本数据暂存区域的工具对数据的推送处理(不是其他方法)提取获益从多种来源提取数据:机器数据、社交数据、多结构成熟的整合工具,更高的生产力数据中心获益以大数据形式产生和分析的数据 – 从不清除用于完成大数据运行时内的工作的图形工具InfoSphere BigInsights 的批量数据整合集市DataStageDataStageBigInsightsHadoop数据库仓库FilesFiles并行写入并行读取细节和摘要集市 数据仓库子集文件大数据文件组件与大数据来源交换信息将企业信息转移到大数据来源,使它可包含在分析中获取 Hadoop 的分析结果,并将它们应用于其他 IT 解决方案并行性和规模对 HDFS 的支持通过信息服务器并行引擎提供了大规模可伸缩性作业血统与大洞察来源/目标步骤使用信息服务器中的扩展性功能使用 BDFS 作为来源BDFS 引入了新来源选项 Namenode Cluster Host 和 PortBDFS 可并行读取文件模式BDFS 可使用 Readers 选项并行读取单个文件BDFS 数据流程图BDFS 使用多个读取器流程并行化 HDFS 读取数据数据节点PX文件请求BDFS名称节点PXBDFS数据InfoSphere DataStage使用 BDFS 作为目标BDFS 引入了新的目标选项 Namenode Cluster Host 和 PortBDFS 通常写入单个文件BDFS 能够并行写入多个文件BDFS 示例 分析作业输出风险分类客户情绪倾向性分析作业可以通过分析电子邮件在 InfoSphere BigInsights 中执行。客户情绪倾向性摘要将被更新到仓库中。InfoSphere DataStage 作业将挑选信息并更新数据仓库(使用 SCD 阶段的客户维度)可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。Information Server – Big data integrationBDFS:可扩展性和性能BigInsights NodesServers: x3630 M3Number of Systems: 26 (5 used for the test)CPU: Intel(R) Xeon(R) CPU X5675 @ 3.07GHzMemory: 48GBStorage: 4TBDataStage Nodes (2)Server: Intel Westmere-EX (4 sockets)CPU: Intel(R) Xeon(R) CPU E7- 4870 @ 2.40GHzStorage: 1TB Information Server – Big data integrationBDFS:可扩展性和性能- 读写都具有近线性的可扩展能力- 最高可达5.2 TB/小时- DataStage节点翻倍,处理效率翻倍直至磁盘资源全部占用平衡的优化 – 从 DataStage 生成 Hadoop MapReduce 作业使用 DataStage Design 流程生成 ETL 作业使用 Balanced Optimization 将其编译为在 BigInsights 上运行。将支持完全下推 – Hadoop 内的所有处理(如果可能)混合下推 – 内部的一些处理和外部剩余处理,具体取决于来源和目标自动化的大数据作业生成通过Information Server和Hadoop 数据文件系统 (HDFS)的 整合,强化了IBM在大数据的领导地位通过 Job Sequencer 对 Big Insights 和其他 MapReduce 作业进行编程调用,结合 DataStage 和 Hadoop 实现端到端工作流。利用设计器用户界面和标准阶段结构来生成 MapReduce 作业,为用户提供处理 BigData 来
您可能关注的文档
- 供应链运作参考模型(SCOR).pptx
- 供应链质量管理与顾客关系.pptx
- 供应链运作标准模式(SCOR) .pptx
- 供应链运作标准模式(SCOR).pptx
- 供应链运作参考模型SCOR简介.pptx
- 供应链运作标准模式(Supply-ChainOperationReference.pptx
- 供应链采购研究课件.pptx
- 供应链金融(修改版).pptx
- 供应链金融--招商银行交流.pptx
- 供应链金融_演示用(PPT45页).pptx
- (正式版)DB51∕T 1867-2014 《袋栽黑木耳生产技术规程》.docx
- (正式版)DB51∕T 2413-2023 《油橄榄密植丰产栽培技术规程》.docx
- (正式版)DB51∕T 2436-2017 《川菜东坡一品肉烹饪工艺技术规范》.docx
- (正式版)DB51∕T 2396-2017 《农村电子商务服务站(点)服务与管理规范》.docx
- (正式版)DB51∕T 2419-2017 《桢楠扦插育苗技术规程》.docx
- CN105145773B 一种无花果曲奇饼干及其制作方法 (江苏农林职业技术学院).docx
- CN105203825A 微测量电极的制作方法和热电势的测量方法及相关装置 (国家纳米科学中心).docx
- CN105137533B 一种啁啾光纤光栅及其制作方法 (南京航空航天大学).docx
- (正式版)DB51∕T 2453-2018 《巴山新居公共管理指南》.docx
- (正式版)DB51∕T 1892-2014 《川西北地区沙化土地治理技术规程》.docx
最近下载
- 高一必修一化学笔记总结.pdf VIP
- NCCN临床实践指南:子宫肿瘤(2026.v2)PPT课件.pptx VIP
- 2025年江西应用技术职业学院高职单招高职单招英语2016-2024年参考题库含答案解析.docx
- 《无机化学》电子教案.pdf VIP
- 孔子游春课件62260.ppt VIP
- 2025年江西应用技术职业学院单招笔试语文试题库含答案解析.docx VIP
- 2025年江西应用技术职业学院单招笔试综合素质试题库含答案解析.docx VIP
- 2025年江西应用技术职业学院单招《数学》题库试题附参考答案详解(突破训练).docx VIP
- The Mummy《木乃伊(1999)》完整中英文对照剧本.docx VIP
- 2026年江西应用技术职业学院单招职业技能考试模拟测试卷带答案解析.docx VIP
原创力文档

文档评论(0)