简述大数据的四大特征.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

简述大数据的四大特征

一、大数据四大特征的整体逻辑与关联

大数据的核心特征可通过“4V模型”概括,这一模型由国际数据公司(IDC)提出,旨在从规模、类型、速度、价值四个维度定义大数据与传统数据的本质差异。四个特征并非孤立:Volume(规模大)是基础,没有足够的数据量难以覆盖多元场景;Variety(类型多)是前提,多样的数据能提供更全面的信息视角;Velocity(速度快)是保障,实时处理能将数据及时转化为决策依据;Value(价值高)是核心,所有技术投入的最终目标都是挖掘数据的业务价值。例如,某外卖平台的实时调度系统,需依托千万级用户订单(Volume)、车辆位置/用户偏好/路况(Variety)、3秒内的实时计算(Velocity),才能实现“最优派单”的价值——这四个特征共同构成了系统的底层支撑。

二、第一大特征:Volume(数据规模大)

1、数据规模的量化标准与演进

数据规模的单位从早期的KB(千字节)、MB(兆字节),已演进至TB(太字节)、PB(拍字节)、EB(艾字节):1TB≈1024GB(约20万首MP3),1PB≈1024TB(约500亿页文本),1EB≈1024PB(约2.5亿部1080P电影)。当前,互联网企业的核心数据(如用户行为日志、交易记录)普遍达到PB级,头部企业(如短视频、电商平台)甚至突破EB级。

2、大规模数据的产生场景

大规模数据主要来自三类场景:

-互联网场景:电商的用户访问日志、社交媒体的发帖评论、短视频的上传播放数据(某短视频平台日均视频数据超10TB);

-物联网场景:工业传感器的温度/压力数据、智能家电的运行日志、智能交通的车辆位置数据(某工厂的5000台设备日均产生2TB传感器数据);

-企业业务场景:金融机构的交易记录、医疗机构的电子病历/医学影像、零售企业的供应链数据(某三甲医院的医学影像数据年增长超50TB)。

3、企业应对大规模数据的存储策略

面对PB级数据,企业需采用“分布式存储+分级存储”组合方案:

(1)分布式存储:选择支持水平扩展的系统(如HDFS、Ceph),将数据分散存储在多个服务器节点。其优势是“容量线性增长”(增加节点即可扩容)、“高可靠性”(多副本机制避免数据丢失)——某电商平台用HDFS存储了10PB的交易数据,通过200个节点实现了数据的高效管理。

(2)分级存储:按访问频率将数据分为“热、温、冷”三类:

-热数据(最近7天的交易/用户行为数据):用SSD存储(毫秒级访问速度);

-温数据(最近3个月的日志/历史订单):用SAS硬盘(平衡成本与性能);

-冷数据(1年前的历史数据/归档文件):用磁带或对象存储(如OSS),成本仅为SSD的1/10。

三、第二大特征:Variety(数据类型多样)

1、数据类型的分类与实例

大数据按结构可分为三类,覆盖了企业90%以上的数据场景:

(1)结构化数据:有固定格式与schema(数据结构),存储在关系型数据库(如MySQL)中,如员工信息表(姓名、工号、部门)、交易订单表(订单号、用户ID、金额);

(2)半结构化数据:无固定格式但含自描述信息,如JSON(用户社交媒体资料)、XML(物流跟踪信息)、CSV(逗号分隔值文件);

(3)非结构化数据:无固定结构,无法用传统数据库存储,如文本(医生笔记、用户评论)、图像(医学影像、商品图片)、音频(客服录音)、视频(监控画面)——某医疗机构的非结构化数据(医学影像+医生笔记)占总数据量的70%。

2、多类型数据的处理挑战

多类型数据的核心挑战是“整合与解析”:

-整合难:结构化数据在数据库、非结构化数据在文件系统,需打通不同存储系统的壁垒;

-解析难:非结构化数据(如视频、音频)需专用工具(FFmpeg解析视频、Pydub解析音频)才能提取信息;

-查询难:传统SQL无法直接处理非结构化数据,需用全文检索(如Elasticsearch)或机器学习框架(如TensorFlow)分析。

3、多类型数据的整合与管理建议

针对类型多样的问题,企业可采用“数据湖+Schema-on-Read”解决方案:

(1)数据湖:构建统一的数据湖,存储原始的多类型数据(结构化、半结构化、非结构化)。其优势是“包容性”——无需预先结构化,直接存储原始数据(某零售企业的数据湖整合了POS交易、用户评论、商品图片、供应链传感器数据)。

(2)Schema-on-Read:与传统“写入时定义结构”(Schema-on-Write)不同,Schema-on-Read是“查询时定义结构”。例如,分析用户评论的情感倾向时,才将文本数据转化为“评论ID、用户ID、情感分数”的结构化格式——这种策略减少了预处理成本,保留了数据的原始性。

四、第三大特征:Velocity(数据处理高速)

1、数据

文档评论(0)

小Tt + 关注
实名认证
文档贡献者

一级建造师持证人

繁华落幕

领域认证该用户于2023年11月03日上传了一级建造师

1亿VIP精品文档

相关文档