- 2
- 0
- 约2.78万字
- 约 40页
- 2026-04-22 发布于江西
- 举报
大数据分析与处理手册
第1章大数据概述与理论基础
1.1大数据的四大特征
海量性:指数据量级远超传统数据库处理范围,通常达到PB甚至ZB级别,例如某电商平台每日产生的用户日志可能高达2000亿条,若按每条记录平均50字节计算,总数据量可达100TB,远超传统硬盘存储能力。多样性:指数据格式复杂,包含结构化数据(如数据库表)、半结构化数据(如JSON配置文件、XML报表)和非结构化数据(如图片、视频、文本、代码),例如智慧城市的交通系统中,既有GPS轨迹坐标,也有摄像头抓拍的视频流和气象传感器的原始波形数据。
快速性:指数据产生和处理的速度极快,传统数据库往往需要数天甚至数周才能完成一次全量更新,而大数据系统可在分钟级完成实时流处理,例如社交媒体的热搜榜数据,用户发布一条微博后,系统需在1秒内完成清洗、分词并实时热度指标。价值性:指数据蕴含的巨大商业和科研价值,往往需要挖掘其中隐藏的规律,例如通过分析用户的浏览路径和停留时长,可以精准预测用户的购买意向,从而优化商品推荐算法,提升转化率。真实性:指数据必须准确可靠,任何脏数据或噪声都会导致分析结论偏差,例如在医疗大数据中,若录入的体温数据存在0.1℃的录入错误,直接分析可能导致疾病传播趋势判断错误,因此需建立严格的数据校验机制。
复杂性:指数据分布不均且关联关系复杂,传统统计方法
原创力文档

文档评论(0)