- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
大数据概述
目录页
大数据概念
大数据特征
1
2
大数据量级
3
大数据类型
2
1 大数据概念
Streams
Real time
Near time
Batch
(1)维基百科
在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。更大的数据集的趋势是由于从相关数据的单一大数据集推导而来的额外信息,与分离的较小的具有相同数据总量的数据集相比,能够发现相关性来“识别商业趋势”、确定研究的质量、预防疾病、法律引用链接、打击犯罪以及实时确定道路交通状态”。
(2)百度百科
大数据或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极目的的资讯。大数据可分为大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用,工程和科学问题尚未被重视。大数据工程是指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。
(3)咨询机构
Gartner:“大数据”是高容量、速度和成本效益的要求,创新形式增强洞察力和决策信息处理的各种信息资产。信息资产的数量、速度和品种特性只是Gartner大数据定义中3个部分之一,另两个部分是:信息处理的成本效益和创新形式;增强的洞察力和决策。
IDC:大数据技术描述了新一代的技术和架构,使用高速获取、发展和/或分析方法提取的各种各样数据量非常大的数据价值。大数据具有的4大特征,即海量的数据规模、快速的数据流转和动态的数据体系、多样的数据类型和巨大的数据价值。
麦肯锡:大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。该定义有两方面的内涵:一是符合大数据标准的数据集大小会变化,随着时间推移、技术进步而增长;二是不同部门符合大数据标准的数据集大小会存在差别。
赛迪顾问:大数据是指需要通过快速获取、处理、分析,以从中提取价值的海量、多样化的交易数据、交互数据与传感数据。其中,海量和多样化是对大数据的数据量与数据类型的界定。快速是对大数据获取、处理、分析速度的要求。价值是对大数据获取、处理、分析的意义和目的。交易数据、交互数据与传感数据是大数据的来源。
(4)公司企业
IBM公司:大数据应当具备3个特质,可以概括为3个V,即海量化(volume)、多样化(variety)和快速化(velocity)。
ORACLE公司:大数据通常是指传统企业数据、机器生成的数据/传感器数据、社交数据等,具有数据量、速度、种类和价值等关键特性。
Informatica公司:大数据由3项主要技术趋势汇聚组成,即海量数据交易、海量数据交互、和海量数据处理。
NetApp公司:大数据包括A、B、C3个要素,即分析(analytic),带宽(bandwidth)和内容(content)。
我们认为,大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。大数据不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。
2 大数据特征
(1)数据体量大。大数据一般指在10TB规模以上的数据量。但在实际应用中,很多企业用户把多个数据集放在一起,已经形成了PB级的数据量,而且增长速度很快。
(2)速度快。有数据显示,在全球范围内,数据量以每年50%的速度增长,数据增长的速度已经远远超过IT设计发展的速度。数据本身已经成为企业发展的资产。快速捕捉数据信息,实现数字化生产和管理,已经成为未来企业赢得市场,应对行业网络化的必经之路。
(3)数据多样性。数据来自多种数据源,数据种类和格式日渐丰富,已经冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据。
(4)价值密度低。大数据价值密度的高低与数据总量大小成反比,单条数据本身并无太多价值,但庞大的数据量累积并隐藏了巨大的财富。其价值具备稀疏性、多样性和不确定性等特点。
(5)真实性要求高。数据处理的结果要保证一定的准确性。
(1)不是随机样本,而是全数据。根据定义,大数据是指不用随机分析,而采用所有数据的方法。主要原因有二:一是当前的技术能力让人类可以处理海量的数据;二是随机样本无法获取某些有用的信息,比如跨境汇款中的异常交易。量化投资与图表派技术分析不同,用全数据进行分析,了解指标或信号在整个数据集上的统计优势,比如在建立交易策略时就是可以用10年所有股票的日内数据。
(2)不是精确性,而是混杂性。大数据时代精确不可能实现,反之用概率说话,混杂性变成了一种标准途径。对一个交易策略,对其进行全数据分析,只要分析结果是能长
您可能关注的文档
- 创意绣稿设计 设计流程 3-5-第五节 欣赏品绣稿设计程序(新).pptx
- 催化剂制备与应用 干燥 PPT 2.1.4干燥.pptx
- 催化剂制备与应用 任务二有机离子交换剂制备固体催化剂 PPT 有机离子交换剂(离子交换树脂).ppt
- 大豆栽培技术 封闭除草、大豆田间管理 豆田杂草.ppt
- 大豆栽培技术 秋整地方法与整地机械、新技术培训包 大豆整地机械图片.ppt
- 大健康英语 Type 2 Diabetes 1.30 课件2-Asking a patient for consent-王少静.pptx
- 大健康英语 What is Dyslipidemia And Symptoms. What is Dyslipidemia And Symptoms二维动画陈丹宾.ppt
- 大数据金融 大数据金融发展趋势 大数据金融发展趋势.pptx
- 大数据金融 金融业对大数据应用的需求 金融大数据的数据范围.pptx
- 大数据金融 平台金融与供应链金融的区别 平台金融与供应链金融的区别.pptx
- 国开景区管理作业2试题及答案.pdf
- 国开景区管理作业1-4试题及答案.pdf
- 河南开放大学本科《地域文化(本)》作业练习1-3试题及答案.pdf
- 2024年大型游乐设施操作证考试题库及答案很全.pdf
- 2024年门座式起重机司机考试题库及答案.pdf
- 2022-2023学年河北省衡水市武强中学高二(下)期末数学试卷【答案版】.docx
- 2022-2023学年河北省保定市崇德实验中学高二(下)期末数学试卷【答案版】.docx
- 江西省2017年中小学教师招聘考试高中化学试卷及答案.docx
- 2024年河北省八年级中考生物真题(解析版).docx
- 2024年南阳市社会保险中心(唐河县企业养老保险分中心)(参公)一级科员招录1人《行政职业能力测验》高频考点、难点(答案详解版).docx
文档评论(0)