初识大数据_课件幻灯片.ppt

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 引子指的是抛出问题的关键词 * 流式计算服务中的难点 多流join问题 负载均衡 故障恢复,容灾容错 热点数据缓存 UV计算,访问去重 数据一致性 流式结果复用 流式计算服务 Galaxy: 高吞吐、秒级延迟 面向不同类型用户编程接口(SQL,语义层/Java) 集群服务化:多集群用户不感知,可运维迁移任务 支持图形化界面开发、运维流程整合 支持多计算引擎 内建自动化数据测试体系 支持数据重跑(Map/Reduce/Merge模型) 在线处理服务/实时多维分析 Garuda: 面向“高并发OLAP” 高并发、低延迟(毫秒~秒) 列存储、全索引 亿级别数据大表,支持大表Join 支持SQL,任意维度组合查询、统计 可选存储引擎:内存表、SSD、SATA SQL/Mysql protocol ——在海量数据集的前提下,数据的上钻下钻,多维聚合分析,大表关联查询都面临要在短时间内聚合大量数据的挑战,传统的报表工具或数据库系统都无法予以支撑 大数据的技术领域 大数据的技术领域-数据交换平台 数据同步 批量同步 实时同步 分布式同步 数据加工 工作流(DAG) Adhoc查询 任务设计 数据挖掘 数据管理 元数据管理 生命周期 数据质量 血缘分析 基础体系 监控系统 计量系统 审计系统 账户/安全体系 工作流(DAG) 生命周期 大数据的技术领域-数据处理平台 生命周期 设置不同分区的原因 交互区 整合区 近线区 归档区 访问频率 高 高- 高-- 低 访问方式 随机 随机- 随机--- 顺序 数据量 小且稳定 小且稳定 小且稳定 大并且持续增长 存储成本 高 高- 高-- 低 时间推移 周期性删除 数据压缩 极限存储 周期性删除分区型数据 常用于源数据,由daemon框架分发数据压缩任务 适用于存量大变化小且有逻辑业务主键的数据,效果最高可达100:1 数据Raid化 利用离线系统提供的软raid算法处理数据,可以通用性的节省一倍空间 生命周期-策略 冷数据中心 历史的有价值的数据,但访问的概率很低,转移到更廉价的存储中心 大数据的技术领域-数据处理平台 大数据的技术领域 大数据的技术领域-数据分析与挖掘 数据分析不仅是个工具,而且是门艺术,优秀的数据分析师不光要懂业务、懂管理,懂分析、还要懂创意、懂设计、懂生活,所以数据分析师也是个艺术家。 大数据的技术领域-数据分析与挖掘 数据挖掘解决的四类问题: 分类问题 聚类问题 关联问题 预测问题 常用算法: Kmeans, 逻辑回归,决策树,SVD分解,随机森林,大规模矩阵运算等 大数据的技术领域-数据分析与挖掘 相关工具: SAS,R,Rhive/Rhadoop, Mahout,Xlib,OpenMPI… 大数据的技术领域-数据分析与挖掘 数据分析师和挖掘专家是真正的数据淘金者 大数据的技术领域 大数据的技术领域-数据可视化 数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息 为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察 数据可视化的根本目的:传达与沟通信息 大数据的技术领域-数据可视化 大数据的技术领域-数据可视化 大数据的技术领域-数据可视化 数据可视化相关工具: Google Public Data?Explorer Instantatlas Data Desk DAVIX Eye-Sys Ferret Data Visualization and Analysis GGobi IBM OpenDX IDL (programming language) Style Intelligence OpenLink AJAX Toolkit ParaView Smile (software) 信息可视化的相关方法: Cladogram?(phylogeny) 分支图 Color alphabet?色彩字母表 Dendrogram?(classification) 树状图 Information visualization reference model?信息可视化 Graph drawing?图形绘制 Halo (visualization technique)?晕轮法 Heatmap?热力型地图 HyperbolicTree?双曲树 Multidimensional scaling?多维尺度分析 Problem Solving Environment?问题求解环境 Treemapping?矩形式树状图 阿里数据可视化实验室: /datavjs/

文档评论(0)

153****9595 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档