- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关于大数据技术与思路的介绍
天云融创数据科技(北京)有限公司
从大数据思维谈起
大数据从改变我们的思维开始
“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明新服务的源泉,更多的改变正蓄势待发。”
维克托·迈尔-舍恩伯格
《大数据时代》的作者
是最早洞见大数据时代发展趋势的数据科学家之一,也是最受人尊敬的权威发言人之一。
摘自《大数据时代——生活、工作与思维的大变革》
大数据正在改变我们的一切,其中最重要的是从改变我们的思维方式开始,引发思维大变革,并带来所谓的“大数据思维”。
功能的价值VS数据的价值
功能的价值
数据的价值
静态的
被动的
价值
递减的
动态的
主动的
价值
递增的
用户使用中留下了实用的信息痕迹产生了数据 ,能告诉我们,每一个客户的消费倾向,他们想要什么,喜欢什么,每个人的需求有哪些区别,哪些又可以被集合到一起来进行分类。
大数据思维重要特征是相关性思维
一些看起来不相关的东西,其实它们有其内在相关性。
大数据没有必要找到原因,不需要证明这个事件和那个事件之间有一个必然,不需要找到先后关联发生的一个因果规律。
传统的思维方式习惯于“因果”
大数据的思维是“相关性”思维
往往只能够想到“前应后果”“多因一果”“一因多果”。数据的分析按照我们既定的目标进行,一切以业务驱动为主。
从“人找信息”到“信息找人”
人找信息
信息找人
从人找信息到信息找人,是交互时代的一个转变,也是智能时代的要求,你需要什么信息,企业和机器提前知道,而且主动给你提供你所需要的信息。
大数据应用需要大数据技术
需要具备海量存储的能力
磁盘阵列
分布式存储
海量历史数据
事务数据
容量可扩展
单位存储成本低
适用于海量存储
容量扩展有限
单位存储成本高
适用于关键交易系统
需要兼容全类别格式的数据
关系型数据
文本数据
二进制数据
大数据平台
需要具备分布式处理能力
计算节点
大规模计算和处理任务
计算任务拆分
随着节点数的增加,其处理能力线性提升。
需要支持开放式的数据结构
Key-Value
JSon
索引
向量空间
矩阵
邻接表
关系模型
GIS
需要具备多种数据处理的技术
数据检索
(精确、模糊)
数据统计
流式处理
内存计算
批量处理
图计算
机器学习
自然语言识别
Hadoop技术是支撑大数据的最佳实践
从Apache软件基金会讲起
专门为运作一个开源软件项目的 Apache 的团体提供支持的非盈利性组织。这个开源软件项目就是 Apache 项目。
Apache软件基金会
荣获了著名IT杂志SD Times颁发的2013 SD Times 100奖项,位于“极大影响力”分类第二位,仅次于亚马逊。
Apache软件基金会自成立15年来,已经拥有超过150个世界顶级项目。
Hadoop生态体系
Hadoop由 Apache基金会 于 2005 年秋天作为Lucene的子项目Nutch的一部分正式引入。
Hadoop的意义不仅在于其自身,而且它具备丰富的生态技术体系。
HDFS为分布式文件系统,为海量数据提供了存储服务。
Hadoop数据库,提供海量结构化存储。.
分布式内存计算技术,提供高性能数据计算。
高性能的全文搜索服务.
数据实时计算,流式数据处理技术。
可扩展的机器学习领域经典算法的实现。
可伸缩的分布式迭代图处理系统
提供类SQL交互接口。
Hadoop与关系型数据库交互
大规模科学的计算
……
Hadoop开源生态发展法则
1: 计算框架多样性在分布式计算环境中成为事实,没有一种框架适合所有计算,不同的场景使用多种的计算框架组合。
Google,Facebook等获得巨大商业化成功的公司,将研发的部分计算框架开源回馈社区;
分享与迭代创新精神,推动社区不断出现新的计算框架;
2: Hadoop core开源核心成为一种标准,成为众多计算框架彼此合作的基础.
没有任何商业实体能够拥有hadoop核心;
任何对hadoop core的优化改进,如果采用商业形式的封装,都是对行业say NO;
数据处理技术
丰富的生态体系满足专业化的需求
用户选择视角
互联网程序猿视角
i7处理器
光驱
主板
至强处理器
内存
显示器
显卡
不同的应用场景,对组件的选择要求不同,丰富的生态技术满足专业化需求
服务器
游戏主机
办公电脑
移动设备
数据治理,日志分析,历史数据查询,关联关系网络分析,机器学习,统计分析,自然语言识别
Tez?
Impala?
Storm?
Kafka?
Spark?
Ooize?
Solr?
Falcon?
Databus?
Pregel?
Hive?
MR?
MPI?
与似类技术
您可能关注的文档
最近下载
- 绿色工厂培训课件.pptx VIP
- 8+新能源项目预收购(转让)协议.docx VIP
- SL∕T 617-2021 水利水电工程项目建议书编制规程.pdf
- 2025年高考化学河北卷及答案(新课标卷).docx VIP
- 天津《温拌沥青混合料超薄罩面技术规程》DBT 29-210-2022.pdf
- 2010年考研英语二真题答案及解析.pdf VIP
- 2024浙江嘉兴市海盐县交通投资集团有限公司第二轮招聘12人笔试模拟试题及答案解析.docx VIP
- 消毒剂消毒效果及储存效期验证方案.docx VIP
- 电工仪表及测量第一章 测量与电工仪表的基本知识.ppt VIP
- 浙江省计算机二级办公软件高级应用技术真题.doc VIP
文档评论(0)