- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2019年行业大数据技术架构介绍
行业大数据部署思路浅析
什么是大数据?
海量数据本身+处理方法
*
大数据的4V特征
*
1、密不可分的大数据与云计算
商业模式驱动
应用需求驱动
云计算本身也是大数据的一种业务模式
大数据是落地的云
云计算的模式是业务模式,本质是数据处理技术。
数据是资产,云为数据资产提供存储、访问和计算。
当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策和服务,是大数据核心议题,也是云计算的最终方向。
*
2、大数据不仅仅是“大”
多大?
至少PB 级
比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值
*
4、大数据的应用不仅仅是精准营销
通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景
消费行业
金融服务
食品安全
医疗卫生
军事
交通环保
电子商务
气象
*
5、管理大数据“易”理解大数据“难”
虽然大数据是一个重大问题,真正的问题是让大数据更有意义
目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心
非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等
挖掘内部需求
经过大数据改造的IT不再是一个冷冰冰的系统,而变成了推动业务发展,挖掘客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。
数据源
内部结构化数据
外部其他渠道
网络/应用 日志
EDW(内外部结构化数据)
用户基本信息
数据库
Hadoop(内外部非结构化数据)
网络日志分析
内容分析
交互数据分析
个体分析
用户购买记录数据库
用户维修记录数据库
内部非结构化数据
数据应用仓库
用户在线浏览据库
用户安装配送数据库
。。。。。
其他数据集
数据应用/服务
营销/关怀活动自动化管理
商业智能
管理驾驶舱
业务报表
专题分析
嵌入运营系统的大数据应用
信息可视化工具
CRM
SCM
MES
PLM
平台化企业,需要大数据架构的支撑
更高一层数据层面整合企业内外部
*
数据的再利用:
由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。
大数据价值链的3大构成:数据本身、技能与思维
谷歌公司三者兼具,在刚开始收集数据的时候就已经有多次使用数据的想法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了制成全自动汽车以及谷歌眼镜等与实景交汇的产品。
未来,企业会依靠洞悉数据中的信息更加了解自己,也更加了解客户。
《大数据时代》
传统行业最终都会转变为大数据行业,无论是金融服务也、医药还是制造业。
分析技术:
数据处理:自然语言处理技术
统计和分析:A/B test; top N排行榜;地域占比;文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学习;建模仿真
大数据技术:
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等
存储
结构化数据:
海量数据的查询、统计、更新等操作效率低
非结构化数据
图片、视频、word、pdf、ppt等文件存储
不利于检索、查询和存储
半结构化数据
转换为结构化存储
按照非结构化存储
解决方案:
Hadoop(MapReduce技术)
流计算(twitter的storm和yahoo!的S4)
什么是hadoop
开源Apache 项目,灵感来源于Google的
MapReduce白皮书和Google文件系(GFS),
Yahoo完成了绝大部分初始设计和开发
Hadoop 核心组件包括:
-分布式文件系统
-Map/Reduce –分布式计算
用Java编写
运行平台:
•Linux, Mac OS/X, Solaris, Windows
•普通的X86硬件平台
为什么hadoop很重要
非结构化数据暴增:
–估计未来5年,企业的数据将增长650%,其中80%
都是非结构化数据
–比如FACEBOOK每天收集100TB的数据,Twitter会有
每天产生3500亿的tweets
非结构化的数据同样蕴藏巨大价值
需要新方法利用所有数据进行业务分析
– Apache Hadoop作为一个分析存储大量数据的关键
数据平台出现
hado
原创力文档


文档评论(0)