- 1
- 0
- 约6.43千字
- 约 44页
- 2019-06-07 发布于河南
- 举报
北京荣之联 大数据解决方案
目录
大数据综述
荣之联企业大数据平台方案
大数据平台建设方法
汽车制造业应用大数据畅想
案例
大数据时代到来
IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB (1ZB = 10亿TB)
宽带、移动网络普及和提速
移动网络和各种智能终端
视频(医疗影像、地理信息、监控录像等)
统计、分析、预测、实时处理
传感器、RFID阅读器、导航终端等非传统IT设备
社交网络(Facebook, Twitter, 微博等)
数据处理思维转变
少量的样本数据
数据关系力求明确清晰
探求难以捉摸的因果关系
要求数据精确无误
全量数据
乐于接受数据的纷繁复杂
转而关注事物的关联关系
数据的精确不是那么重要了
• 谷歌翻译系统为了训练其系统,收集其能找到的所有翻译;
• 谷歌收集了上万亿页的语料库,包括质量参差不齐的文档;
• 上万亿的语料库,相当于950亿句英语;
• 相对而言,谷歌的翻译质量还是最好的;
• 谷歌翻译之所以更好,不是因为它拥有一个更好的算法机制,而是增加了各种各样的数据,包括有错误的数据;
• 在谷歌的翻译团队中,大多数工程师并不懂其翻译出来的语言;
数据处理思维转变
传统数据分析思维
大数据分析思维
案例一
• 聘请了20多名书评家和编辑组成的团队,在网页上创立“亚马逊的声音”向客户推荐新书,写书评;
• 通过客户的购买历史,寻找客户的相似性,对客户分群进行产品推荐,推荐的总是与以往购买的相似或略有区别;
• 通过大量的数据分析,找出书籍之间的关联关系,即“item-to-item”,时亚马逊发生了天翻地覆的变化。
• AMAZON销售额的三分之一来自于“item-to-item”的推荐系统。
• AMAZON最终放弃了在线书评,书评团队被解散。
案例二
数据处理思维转变
数据处理思维转变
关联关系,预测的关键。很多时候,知道“是什么”就够了,没必要知道“为什么”。
一旦我们完成了“关联关系”分析,我们就可以继续向更深层次研究因果关系,找出背后的“为什么”
• 沃尔玛:请把蛋挞和飓风用品摆在一起,请把啤酒和尿片摆在一起;
• 某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性;
• 对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号;
• 某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性;
• 对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号;
其它案例
大数据与BI融合*
大数据的商业价值
大数据主要厂商
大型企业和机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。由于Hadoop深受欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop提供解决方案。 Hadoop的发行版除了社区的Apache hadoop外,cloudera,IBM,ORACLE等都提供了自己的商业版本。商业版主要是提供Hadoop专业的技术支持,这对一些大型企业尤其重要。
Cloudera
EMC
。。。
IBM
Oracle
大数据生态
非结构化资料汇入
SQL
资料汇入
分散式档案系统
类SQL资料库系统
(非即时性)
分散式资料库
(即时性)
并行计算框架
资料处理语言
数据挖掘程序库
目录
大数据综述
荣之联企业大数据平台方案
大数据平台建设方法
汽车制造业应用大数据畅想
案例
企业大数据平台架构原则*
技术-按需频度的数据获取
批量和实时数据采用不同的技术手段和工具,遵循统一的文件接口标准
技术-多样化数据共存
跨同构/异构数据库(物理系统),基于文本、数据库的数据抽取和加载
数据-数据即服务
业务人员通过逻辑数据对象组件访问数据,而不用关心数据的物理存储方式。通过数据组织与前端应用功能,使业务人员可以较容易、较快地定位和了解数据的内容。
数据-数据质量控制
通过一系列的技术和业务手段实现数据集成平台数据质量控制,主要体现在数据正确性(技术)、完整性、一致性(业务)、有效性。
大数据平台整体架构
大数据处理流程
建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key)
非结构化数据
数
据
获
取
结构化数据
数据集市
数据集市
EDW
结构化
元数据
Hadoop
建立非结构化信息的标签、摘要、索引、日志、内容等
提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合
ODS
SQL
声誉度分析
品牌分析
服务质量分析
竞争产品分析
产品评价
市场动态跟踪
ETL
网络爬虫
大数据关键技术
大数据关键技术-Hadoop
Hadoop系统工作原理
大数据关键技术-网络数据获取
分布式网络爬虫
分布式文件系统
分布式存储
您可能关注的文档
- 大数据分析一体机31.ppt
- 大数据和云计算时代的未来银行81.ppt
- 大数据基本概念和研究热点(102p)102.ppt
- 大数据基本信息35.ppt
- 大数据基础技术概述42.ppt
- 大数据及MapReduce编程模型94.ppt
- 大数据及其相关新兴技术61.ppt
- 大数据即席查询技术.ppt
- 大数据技术交流37.ppt
- 大数据技术交流78.ppt
- 统编版2025年春季新版七年级下册历史 第21课 明清时期的科技与文化 教案.docx
- 雅安雨城法院书记员招聘考试真题库2025.docx
- 2026届安徽合肥市高考一模高考语文试卷试题(含答案详解).pdf
- 【专题研究】国内外城市更新研究的最新进展.pdf
- 【专题研究】老旧城区改造居民满意度影响因素研究——以遂宁市老旧城区改造为例.pdf
- 【专题研究】关于旧城空间改造理论与创意设计案例的几点思考.pdf
- 西藏拉萨市高三下学期期末物理备考重点详解.docx
- 泾县法院书记员招聘笔试真题2025.pdf
- 2026年春【苏教版】-六年级数学下册-面积的变化.pptx
- 2026年春【苏教版】-六年级数学下册-7.pptx
原创力文档

文档评论(0)