2019年大数据解决方案.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
2019年大数据解决方案

北京荣之联 大数据解决方案 目录 大数据综述 荣之联企业大数据平台方案 大数据平台建设方法 汽车制造业应用大数据畅想 案例 大数据时代到来 IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB (1ZB = 10亿TB) 宽带、移动网络普及和提速 移动网络和各种智能终端 视频(医疗影像、地理信息、监控录像等) 统计、分析、预测、实时处理 传感器、RFID阅读器、导航终端等非传统IT设备 社交网络(Facebook, Twitter, 微博等) 数据处理思维转变 少量的样本数据 数据关系力求明确清晰 探求难以捉摸的因果关系 要求数据精确无误 全量数据 乐于接受数据的纷繁复杂 转而关注事物的关联关系 数据的精确不是那么重要了 • 谷歌翻译系统为了训练其系统,收集其能找到的所有翻译; • 谷歌收集了上万亿页的语料库,包括质量参差不齐的文档; • 上万亿的语料库,相当于950亿句英语; • 相对而言,谷歌的翻译质量还是最好的; • 谷歌翻译之所以更好,不是因为它拥有一个更好的算法机制,而是增加了各种各样的数据,包括有错误的数据; • 在谷歌的翻译团队中,大多数工程师并不懂其翻译出来的语言; 数据处理思维转变 传统数据分析思维 大数据分析思维 案例一 • 聘请了20多名书评家和编辑组成的团队,在网页上创立“亚马逊的声音”向客户推荐新书,写书评; • 通过客户的购买历史,寻找客户的相似性,对客户分群进行产品推荐,推荐的总是与以往购买的相似或略有区别; • 通过大量的数据分析,找出书籍之间的关联关系,即“item-to-item”,时亚马逊发生了天翻地覆的变化。 • AMAZON销售额的三分之一来自于“item-to-item”的推荐系统。 • AMAZON最终放弃了在线书评,书评团队被解散。 案例二 数据处理思维转变 数据处理思维转变 关联关系,预测的关键。很多时候,知道“是什么”就够了,没必要知道“为什么”。 一旦我们完成了“关联关系”分析,我们就可以继续向更深层次研究因果关系,找出背后的“为什么” • 沃尔玛:请把蛋挞和飓风用品摆在一起,请把啤酒和尿片摆在一起; • 某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性; • 对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号; • 某信用评分公司,利用Facebook的社交圈来预测个人偿还债务的可能性; • 对冲基金通过分析Twitter微博的数据文本,作为股市投资的信号; 其它案例 大数据与BI融合* 大数据的商业价值 大数据主要厂商  大型企业和机构在寻求解决棘手的大数据问题时,往往会使用开源软件基础架构Hadoop的服务。由于Hadoop深受欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop提供解决方案。 Hadoop的发行版除了社区的Apache hadoop外,cloudera,IBM,ORACLE等都提供了自己的商业版本。商业版主要是提供Hadoop专业的技术支持,这对一些大型企业尤其重要。 Cloudera EMC 。。。 IBM Oracle 大数据生态 非结构化资料汇入 SQL 资料汇入 分散式档案系统 类SQL资料库系统 (非即时性) 分散式资料库 (即时性) 并行计算框架 资料处理语言 数据挖掘程序库 目录 大数据综述 荣之联企业大数据平台方案 大数据平台建设方法 汽车制造业应用大数据畅想 案例 企业大数据平台架构原则* 技术-按需频度的数据获取 批量和实时数据采用不同的技术手段和工具,遵循统一的文件接口标准 技术-多样化数据共存 跨同构/异构数据库(物理系统),基于文本、数据库的数据抽取和加载 数据-数据即服务 业务人员通过逻辑数据对象组件访问数据,而不用关心数据的物理存储方式。通过数据组织与前端应用功能,使业务人员可以较容易、较快地定位和了解数据的内容。 数据-数据质量控制 通过一系列的技术和业务手段实现数据集成平台数据质量控制,主要体现在数据正确性(技术)、完整性、一致性(业务)、有效性。 大数据平台整体架构 大数据处理流程 建立对非结构化数据进行SQL语法查询的支持,实现与结构化数据的集成关联(key) 非结构化数据 数 据 获 取 结构化数据 数据集市 数据集市 EDW 结构化 元数据 Hadoop 建立非结构化信息的标签、摘要、索引、日志、内容等 提取结构化的元数据信息,如类别、标引、摘要等;实现与结构化数据的整合 ODS SQL 声誉度分析 品牌分析 服务质量分析 竞争产品分析 产品评价 市场动态跟踪 ETL 网络爬虫 大数据关键技术 大数据关键技术-Hadoop Hadoop系统工作原理 大数据关键技术-网络数据获取 分布式网络爬虫 分布式文件系统 分布式存储

文档评论(0)

tangtianbao1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档