- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
PAGE
PAGE1
9.1.6大数据的定义与主要特征
1.大数据的定义
大数据研究专家维克托·迈尔-舍恩伯格曾经说过:世界的本质是数据。在他看来,认识大数据之前,世界原本就是一个数据时代;认识大数据之后,世界不可避免地分为大数据时代、小数据时代。随着社会不断发展的脚步,各类数据不断累积,如果说小数据时代的各类分析调研更多的是靠样本采集,那么现在,不管从数据的维度还是层次来看,数据体量的累积已经到了一个非常夯实的阶段。
在这两个时代的过渡中,人们也自然而然地从先前的样本思维转变成大数据时代需要具备的整体思维,以更好地运用大数据,或者说,抽样调查将成为过去时,对所有数据进行分析处理才是大数据时代应有的思维方式。
对于大数据的具体定义和价值,大多数人都停留在知其然而不知其所以然的阶段。但这也并不妨碍大数据这一词汇在大众心中的高度,它代表着先进,代表着高科技,代表着不可预知但可以预见的未来世界。
麦肯锡最早提出了大数据时代的到来:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
对于大数据的定义,权威机构们给出了不同的表述。
世界知名咨询企业Gartner给出的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
还有一些是这样表述的,大数据是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”。
大数据的主要特征
不管是信息资产还是数据集合,这些定义无不在昭示着大数据对于人们未来社会的价值。
(1)大数据的特征一:规模性
随着信息化技术的高速发展,数据开始爆发性增长。大数据中的数据不再以几个GB或几个TB为单位来衡量,而是以PB(1千个T)、EB(1百万个T)或ZB(10亿个T)为计量单位。
(2)大数据的特征二:多样性
多样性主要体现在数据来源多、数据类型多和数据之间关联性强这三个方面。
①数据来源多,企业所面对的传统数据主要是交易数据,而互联网和物联网的发展,带来了诸如社交网站、传感器等多种来源的数据。而由于数据来源于不同的应用系统和不同的设备,决定了大数据形式的多样性。大体可以分为三类:一是结构化数据,如财务系统数据、信息管理系统数据、医疗系统数据等,其特点是数据间因果关系强;二是非结构化的数据,如视频、图片、音频等,其特点是数据间没有因果关系;三是半结构化数据,如HTML文档、邮件、网页等,其特点是数据间的因果关系弱。
②数据类型多,并且以非结构化数据为主。传统的企业中,数据都是以表格的形式保存。而大数据中有70%—85%的数据是如图片、音频、视频、网络日志、链接信息等非结构化和半结构化的数据。
③数据之间关联性强,频繁交互,如游客在旅游途中上传的照片和日志,就与游客的位置、行程等信息有很强的关联性。
(3)大数据的特征三:高速性
这是大数据区分于传统数据挖掘最显著的特征。大数据与海量数据的重要区别在两方面:一方面,大数据的数据规模更大;另一方面,大数据对处理数据的响应速度有更严格的要求。实时分析而非批量分析,数据输入、处理与丢弃立刻见效,几乎无延迟。数据的增长速度和处理速度是大数据高速性的重要体现。
(4)大数据的特征四:价值性
尽管企业拥有大量数据,但是发挥价值的仅是其中非常小的部分。大数据背后潜藏的价值巨大。由于大数据中有价值的数据所占比例很小,而大数据真正的价值体现在从大量不相关的各种类型的数据中。挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,并运用于农业、金融、医疗等各个领域,以期创造更大的价值。
(5)大数据的特征五:真实性
真实性是指数据的质量和保真性。大数据环境下的数据最好具有较高的信噪比。信噪比与数据源和数据类型无关。
大数据的类型
传统企业数据(Tradi\oTI社区TIonalenterprisedata):包括CRMsystems的消费者数据、传统的ERP数据、库存数据以及账目数据等。
机器和传感器数据(Machine-generated/sensordata):包括呼叫记录(CallDetailRecords)、智能仪表、工业设备传感器、设备日志(通常是Digitalexhaust)、交易数据等。
社交数据(Socialdata):包括用户行为记录、反馈数据等。如微信、Facebook这样的社交
您可能关注的文档
- 信息技术 第二册(五年制高职)教案 6.1.1 数字媒体技术的基本概念.docx
- 信息技术 第二册(五年制高职)教案 6.1.2 数字媒体技术基的本特征.docx
- 信息技术 第二册(五年制高职)教案 6.2 拓展提高_数字格式转换.doc
- 信息技术 第二册(五年制高职)教案 6.2.1 数字图像的基础知识.docx
- 信息技术 第二册(五年制高职)教案 6.2.2 获取数字图像的方法与途径.docx
- 信息技术 第二册(五年制高职)教案 6.2.2+6.2.4+6.2.6 旁白.doc
- 信息技术 第二册(五年制高职)教案 6.2.3 数字音频的基础知识.docx
- 信息技术 第二册(五年制高职)教案 6.2.4 获取数字音频的方法与途径.docx
- 信息技术 第二册(五年制高职)教案 6.2.5 数字视频的基础知识.docx
- 信息技术 第二册(五年制高职)教案 6.2.6 获取数字视频的方法与途径.docx
文档评论(0)