数据质量低.PDF

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据质量低

云梦数据仓 (B2100 Big Data Appliance ) —存储与数据清洗的梦幻组合 赵凯 赛凡副总经理 目录 1 认识大数据时代 2 大数据建设的现状 3 云梦数据应用定位 4 云梦数据仓产品特性与优势 5 云梦数据仓产品分类 认识大数据时代 国务院于2015年9月5日 经李克强总理签批,国务 院日前印发 《促进大数据发展行动纲要》 ,系统部署 大数据发展工作。 目前对大数据尚未有一个公认的定义,不同 什么是大数据? 的定义基本上是从特征出发,试图给出大数 据的定义。 全球每年的数据总量都 在不断地增加,每两年 大数据很抽象,表示数据规模的庞大。 增加一倍。预计到2020 年,数据总量将超过 大数据泛指巨量的数据集,因从中发掘出有 40ZB ,是现在的44倍 价值的信息而备受重视。 大数据四大特征 大数据的起始计量单位至少是P (1000个T )、E (100万个T )或Z (10亿个T ); 数据量大 非结构化数据的超大规模和增长占数据量的80—90% ;比结构化数据增长快10—50倍。 大数据的异构和多样性 类型繁多 很多不同形式(数据库、文本、图像、视频、音频); 无模式或模式不明显;不连贯的语法或语义。 数据海量,但存在大量无关信息,数据价值密度低; 价值密度低 数据价值“提纯”是大数据时代亟待解决的问题。 处理速度快,时效性高,这是区分传统数据挖掘的显著特征; 速度快时效高 数据处理立竿见影,而非事后见效。 目录 1 认识大数据时代 2 大数据建设的现状 3 云梦数据应用定位 4 云梦数据仓产品特性与优势 5 云梦数据仓产品分类 大数据建设的现状  积累了大量的数据,数据各种各样;  缺乏统一的规划,数据的存储方式和数据标准上都千差万别; 这为数据分析工作带来了巨大的麻烦,我们必须要先把这些数据都清洗成统一的标准, 才能在数据分析的工作中发挥这些数据潜在的价值。 目前,政府、企业各种大数据项目规划和建设过程中,绝大多数是强调了建设完成后的 大数据平台软硬件以及理论上能实现的效果,而真正落地实施的乏善可陈。 建立大数据应用,需要干净的源数据。 大数据建设的现状  数据分散 A类数据 B类数据  种类繁多 数据分散  格式繁多 C类数据 D类数据  版本繁多 ORACLE

文档评论(0)

sunshaoying + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档