- 2
- 0
- 约2.67万字
- 约 40页
- 2026-04-27 发布于江西
- 举报
大数据处理与分析手册
大数据处理与分析手册
第一章数据基础与预处理
1.1数据定义与分类
数据是信息的载体,是大数据处理与分析的基石。在构建数据仓库时,我们需要首先明确数据的定义,即数据是记录现实世界信息、经过结构化或半结构化处理后的原始形式。例如,某电商平台的用户行为日志中,每一行记录代表一次具体的“浏览”动作,包含用户ID、时间戳、商品ID和页面跳转路径,这些字段共同构成了对“用户行为”这一概念的数据定义。数据分类是建立数据模型的第一步,通常基于其来源、结构和用途进行划分。常见的分类包括结构化数据(如数据库表格)、非结构化数据(如文本、图片、视频)以及半结构化数据(如JSON、XML)。以医疗数据为例,电子病历属于结构化数据,而通过扫描的医学影像报告属于非结构化数据,两者在存储方式和分析策略上有着本质的区别。
在数据分类中,维度(Dimension)和度量(Measure)是两个核心概念。维度用于描述数据的属性,如“用户年龄”、“城市”或“商品类别”,它们通常作为自变量;而度量用于描述数据的数值结果,如“销售额”、“次数”或“访问时长”,它们通常作为因变量。例如,在分析“用户活跃度”时,“日活跃用户数”是一个度量,“用户访问次数”则是另一个度量,前者是后者的结果。数据分类还涉及数据生命周期中的状态管理。数据可能处于“采集阶段”、“清洗阶段”、“存储
您可能关注的文档
最近下载
- 人工智能训练师职业技能竞赛题库及答案501-749单选题.docx VIP
- 颈椎病病历书写模板.docx VIP
- 2024-2025南京高考二模物理试卷.pdf VIP
- IPC_JEDEC J-STD-001J-CN_2025 中文版 焊接的电气和电子组件要求.docx VIP
- 布草洗涤质量标准文件.pdf
- 《陕西省安装工程消耗量定额》章节说明.docx VIP
- 高中英语语法填空题型练习.pdf VIP
- 通路(2017)8401 铁路路基电缆槽.pdf VIP
- 塔楼幕墙屋面环轨拆卸专项施工方案.pdf VIP
- 2025年河南济源职业卫生技术服务专业技术人员考试(职业卫生检测)模拟题库及答案.docx VIP
原创力文档

文档评论(0)