- 2
- 0
- 约2.59万字
- 约 39页
- 2026-06-13 发布于江西
- 举报
大数据分析与可视化手册
第1章大数据基础概念与架构
1.1大数据的定义与核心特征
大数据定义源于Google2011年提出的4V理论,即Volume(海量性)、Velocity(高速性)、Variety(多样性)和Value(价值性)。例如,某电商巨头每天产生500亿条交易记录,每条记录包含用户ID、购买时间、商品SKU及价格,这构成了典型的“海量”数据规模。核心特征中的“高速性”指数据产生和处理的速度远超传统数据库的吞吐能力,如实时流计算平台每秒需处理百万级日志,若不及时削峰填谷,会导致系统崩溃。
“多样性”意味着数据形态从结构化文本、半结构化JSON/XML到非结构化图片、音频、视频等,如社交媒体上的用户评论文本与系统日志文件并存,需采用不同的解析策略。“价值性”强调数据在决策中的实际效用,高质量数据能显著降低欺诈率,例如银行风控系统通过数据清洗后识别出90%的疑似诈骗交易,而脏数据则可能导致误杀正常用户。大数据架构通常分为存储层、计算层、服务层和应用层,存储层负责数据的持久化与读写优化,计算层提供实时或批处理引擎,服务层将数据转化为API接口供业务调用。
在构建此类架构时,需确保各组件间数据流清晰,例如在数据湖中,原始数据存入存储层,经过ETL清洗后进入计算层,最终通过服务层暴露给前端应用,形成闭环。
1.2技术架构演
您可能关注的文档
最近下载
- 植树问题整理-植树问题梳理.docx VIP
- SY∕T 5051-2016 随钻井眼修整工具.pdf
- 动画角色设计(王运栋 张艳)PPT全套完整教学课件.ppt
- 国开电大本科《人文英语4》一平台机考总题库[2026春期珍藏版].pdf
- 五年级升六年级试卷(附答案解析).docx VIP
- 北京交通大学《计算机网络》2021-2022学年第一学期期末试卷.pdf VIP
- 家政服务销售流程标准化方案.docx VIP
- 北京交通大学《计算机网络原理》2022-2023学年第一学期期末试卷.pdf VIP
- 2025年北京交通大学计算机应用技术专业《计算机网络》科目期末试卷及答案.docx VIP
- 周期问题练习题.docx VIP
原创力文档

文档评论(0)