- 0
- 0
- 约1.35万字
- 约 71页
- 2026-01-21 发布于浙江
- 举报
大数据(BigData),或称巨量资料,指的是所涉及的资
料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策的资讯。大数据需要特殊的技术来有效地处理大量的规定时间内的数据。适用于大数据的技术包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。;
8.1大数据的概念
大数据是所涉及的资料量规模巨大,无法在规定时间内
通过常规软件工具对其内容进行撷取、管理和处理的数据集合。大数据需要满足“4V”特征,即数据量大(Volume)、数据的种类多(Variety)、数据的增长及处理速度快(Velocity)、数据蕴藏价值大(Value),而能满足这4个根本特征的才能称为大数据。;
数据量大(Volume)指的是数据的采集、存储和计算的量
都非常大,大数据通常指10TB以上规模的数据量。造成数据量增大的原因很多,例如,监控和传感设备的使用,使我们感知到更多的事务,这些事务的数据将被部分或者完全存储;(移动)通信设备的使用,使得交流的数据量成倍增长;
基于互联网和社会化网络的应用的发展,数以亿计的用户每
天都会产生大量的数据。;
数据种类多(Variety)是指数据的种类和来源较多,例如
多种传感器、智能设备、社交网络等,包括结构化、半结构化和非结构化,以及图片、音频、视频、地理位置等多类型的数据,实际上就是具有多个时段(历史的、现在的)、多种媒体、多个来源、异构(结构化、半结构化、非结构化)的数据。;
数据的增长及处理速度快(Velocity)是指数据每分每秒
都在爆炸性地增长,而对数据的处理速度要求也很高,数据的快速动态的变化使得流式数据成为大数据的重要特征,对大数据的处理要求具有较强的时效性,能够实时地查询、分析、推荐等。;
数据蕴藏价值大(Value)是指在海量的数据中,存在着
巨大的被挖掘的商业价值,然而由于数据总量的不断增加,
数据的单位价值密度却相对较低,如何通过强大的数据挖掘算法,结合企业的业务逻辑来从海量数据中获取有用的价值,是大数据要解决的重要问题。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。
除了上述的4个根本特征外,大数据与传统的数据处理技术最明显的一个区别是,大数据要求在线处理。;
大数据的总体架构包括三层:
(1)数据存储层。数据有很多种分类方法,有结构化、
半结构化、非结构化,也有元数据、主数据、业务数据,还可以分为GIS、视频、文件、语音、业务交易类各种数据。
(2)数据处理层。数据处理层解决的核心问题在于出现分布式存储后,存储方式的改变所带来的数据处理上的复杂度,海量数据存储则带来了数据处理上的时效性要求。
(3)数据分析层。数据分析层的重点是挖掘大数据的真正价值所在,而价值的挖掘核心又在于数据分析和挖掘。;
数据分析只关注两个内容:
一个是传统数据仓库下的数据建模,在该数据模型下需要支持上面各种分析方法和分析策略;
另一个是根据业务目标和业务需求建立的KPI指标体系,对应指标体系的分析模型和分析方法。解决了这两个问题,就基本解决了数据分析的问题。;
从技术上看,大数据与云计算的关系就像一枚硬币的正
反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。物联网、云计算、移动互联网、
车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。
大数据最核心的价值在于对海量数据的存储和分析。相比现有的其他技术,大数据具有廉价、迅速、优化三大特点。;
8.1.1大数据处理的六大工具
1.Hadoop
Hadoop是一个能够对大量数据进行分布式处理的软件
框架,它是以一种可靠、高效、可伸缩的方式进行处理的。
它主要有以下几个优点:
(1)高可靠性。
(2)高扩展性。
(3)高效性。
(4)容错性。;
2.HPCC
高性能计算与通信(HighPerformanceComputingand
Communications,HPCC)是1993年由美国科学、工程、技术
联邦协调理事会向国会提交的“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国
总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。;
该项目主要由五部分组成:
(1)高性能计算机系统(HPCS)
您可能关注的文档
- 《安全工程专业英语(第2版)》司鹄UNIT 6INDUSTRIAL HYGIENE.pptx
- 《安全工程专业英语(第2版)》司鹄UNIT 9ACCIDENT INVESTIGATIONS.pptx
- 《安全工程专业英语(第2版)》司鹄UNIT 8MOTIVATING SAFETY AND HEALTH.pptx
- 《创业管理:理论、案例与实操》课件:创业环境.pptx
- 《工业工程专业英语(第2版)》周跃进Chapter 2 Work Study.pptx
- 《经济法基础知识(第二版)》中职PPT完整全套教学课件.pptx
- 《网络安全防护项目教程》_子任务812数据库技术.pptx
- 《网络安全防护项目教程》_子任务813数据库系统安全策略.pptx
- 《网络安全防护项目教程》_子任务912无线网络设备安全.pptx
- 《网络安全防护项目教程》_子任务1332攻击者计算机配置.pptx
- 中国 IPv6 发展报告2025.docx
- 2025年循环经济中的就业:利用循环经济创造体面的工作报告(英文版)-循环经济基金.docx
- 2025年交通运输信用体系建设典型案例汇编-交通运输部政策研究室.docx
- 职业院校智慧校园规范(2025).docx
- 房地产市场报告 -仲量联行2025年北京房地产市场回顾及2026年展望报告.docx
- 2025空间智能软件技术大会:摩尔线程加速三维GIS构筑空间智能全国产生态.docx
- 2025年基于深度神经网络的非侵入式负荷监测(NILM)报告-天津大学(刘博).docx
- 碧桂园集团工程巡检管理办法.docx
- T_CES 077-2021 移动储能远程监控安全数据采集及应用技术要求.docx
- 1绿电直供、源网荷储一体化系统技术集成与工程实践.docx
原创力文档

文档评论(0)