- 2
- 0
- 约3.28万字
- 约 47页
- 2026-04-23 发布于江西
- 举报
数据分析与挖掘技术手册
第1章数据基础与预处理
1.1数据定义与类型概述
数据定义为计算机系统中用于描述现实世界现象或规律的符号集合,它是所有信息处理活动(如分析、预测、决策)的基石。在数据分析语境下,数据通常表现为数值型(如销售额、温度)或分类型(如性别、地区)的离散或连续变量,其核心特征是“事实”与“信息”的转化。数据类型的划分直接决定了后续处理算法的适用性与精度。例如,数值型数据支持算术运算(加、乘、平均),而分类型数据(如“是/否”)则需通过逻辑判断(True/False)或编码映射(One-HotEncoding)进行转换,不能直接参与数学统计。
数据在存储、传输和计算过程中会发生形态变化,包括格式不统一(如CSV与Excel混合)、编码错误(如中文乱码导致字符丢失)以及层级结构缺失(如缺少主键关联),这些都会导致数据“脏”,必须通过预处理将其还原为高质量的分析数据集。数据类型识别是数据清洗的第一步,需人工或自动根据业务场景判断字段属性。例如,若某列包含“男/女”、“高/中/低”等选项,应标记为分类型;若包含3000元”、120元”等数字,则标记为数值型,以此指导后续编码策略的选择。理解数据类型还涉及处理边界情况,如数值型数据中可能存在的“空值”(NaN)或“无穷大”,分类型数据中可能存在的“未知值”(Unknown)或“缺失类别”,这些特
您可能关注的文档
- 机务维修与安全操作规范.docx
- 2025年区域政策解读与项目对接手册.docx
- 测试工程师工作手册.docx
- 水疗服务与健康管理手册(执行版).docx
- 2025年专业翻译技巧与标准手册.docx
- 2025年客舱服务与乘务人员培训手册.docx
- 2025年在线旅游平台数据分析与优化手册.docx
- 2025年航空货物运输与仓储管理手册.docx
- 环保产业发展趋势与案例分析手册(执行版).docx
- 水利工程施工与管理手册(执行版).docx
- 2025-2026学年山东省济南市第三中学高一(下)期中数学试卷(含答案).pdf
- 2025-2026学年江苏省无锡市辅仁高级中学高一(下)期中物理试卷(含解析).pdf
- 中医护理的艾灸疗法实践.pptx
- 2025-2026学年江苏省南京市金陵中学高一(下)期中物理试卷(含解析).pdf
- 2025-2026学年湖南省长沙市雨花区雅礼中学高二(下)期中数学试卷(含答案).pdf
- 2025-2026学年湖南省长沙市长沙县三峰中学等校高一(下)期中物理试卷(含答案).pdf
- 2025-2026学年湖南省长沙市三峰中学等学校高一(下)期中数学试卷(含答案).pdf
- 2025-2026学年湖北省鄂东南联盟高一(下)期中物理试卷(含答案).pdf
- 甘肃武威第七中学等校2025-2026学年高二下学期期中质量检测地理试卷(含解析).docx
- 甘肃武威市凉州区部分学校2025-2026学年第二学期七年级数学期中素养评价(含解析).docx
原创力文档

文档评论(0)