- 5
- 0
- 约7.34千字
- 约 20页
- 2025-05-08 发布于山东
- 举报
5.1认识大数据
5.2数据的采集
5.3数据的分析
5.4数据的可视化表达
章节知识图谱
概念互联网产生大数据的角度:大量、多样、低值密度、高速
互联网思维角度:样本渐趋于总体,精确让位于模糊,相关性重于因果
认识大数据特征
大数据存储与计算角度:分布式存储,分布式并行计算
影响:双面性
采集方法系统日志采集法、网络数据采集法(网络爬虫)、其它数据采集法
数据的采集存储方法本地存储,云存储
保护措施数据安全保护技术、数据的隐私保护方法
数据处理与特征探索数据预处理:发现并处理缺失值、异常数据...
关联分析分析相关性,事物同时出现的规律和模式
可视化表达数据的分析
聚类分析K-means算法,物以类聚、人以群分
数据分类分类器、贝叶斯分类技术
1.趋势分析:柱形图、折线图
2.比例分析:圆环图、饼图、圈图
3.逻辑关系:散点图、词云图
数据的可视化表达4.空间关系:数据地图、动态热力图
Seaborn:关注统计模型的可视化,高度依赖Matplotlib
Bokeh:实现交互式可视化,可通过浏览器呈现
01
认识大数据
核心考点解析——大数据的概念
l大数据是指无法在可承受的时间范围内用常规软件工具进行高效
捕捉、管理和处理的数据集合。
l是需要新处理模式才能具有更强的决策力、洞察发现力和流程优
化能力的海量、高增长率和多样化的信息资产。
核心考点解析——大数据的特征
角度特征
①大量(Volume)“4V”特征
互联网产生大数据②多样(Variety)
③低价值密度(Value)
④高速(Velocity)
①样本渐趋于总体
互联网思维②精确让位于模糊
③相关性重于因果
①分布式存储
大数据存储与计算②分布式并行计算
巩固练习
案例1:某地智慧交通系统刷卡每天产生1900万条记录,手机定位数据每天产生1800万条,出租车运营
数据每天产生100万条。
您可能关注的文档
- 2025年浙江高中学业水平考试信息技术模拟试卷(含答案详解).docx
- 2024年7月浙江高中学业水平考试信息技术试卷真题(含答案详解).pdf
- 2025高中信息技术编程处理数据知识点复习课件.pdf
- 2025年江苏高中学业水平考试信息技术试卷试题(含答案详解).pdf
- 2025年浙江高中学业水平考试信息技术试卷试题(含答案详解).docx
- 2025年辽宁沈阳高中学业水平考试信息技术试卷(含答案详解).pdf
- 2025年陕西高中学业水平考试信息技术试卷真题(含答案详解).pdf
- 2025年浙江高中信息技术学业水平考试卷试题(含答案详解).pdf
- 2025年浙江高中学业水平考试信息技术模拟试卷(含答案详解).pdf
- 2025年浙江高中学业水平考试信息技术试卷试题(含答案详解).pdf
最近下载
- 硕博研究生英语综合教程郭巍课后习题答案解析.pdf
- AP化学 2018年真题 (选择题+问答题) AP Chemistry 2018 Released Exam and Answers (MCQ+FRQ).pdf VIP
- 武汉地区区域工程地质及水文地质概况、成井方法、基坑工程连通性抽水试验、降水水位计算与预测、回灌试验技术要求.pdf VIP
- 《中国消化内镜技术诊断与治疗炎症性肠病的专家指导意见》解读.pptx
- 《食品感官检验技术》高职食品专业全套教学课件.pptx
- 组织碳中和声明模板.docx VIP
- 2024-2025学年湖北省襄阳市小升初英语真题1(含答案).pdf VIP
- 第九章射线分析原理及应用.ppt VIP
- (人教版2026新教材)地理八年级下册新教材解读课件.pptx
- 组织碳中和评价报告模板.docx VIP
原创力文档

文档评论(0)