- 4
- 0
- 约9.44千字
- 约 92页
- 2017-03-01 发布于湖北
- 举报
规范化 最小-最大规范化 z-score规范化 数据量纲不同,e.g. 身高、体重 离散化和概念分层 离散化(连续数据) 通过将属性域划分为区间,减少给定连续属性值的个数。区间的标号可以代替实际的数据值。 概念分层(标称数据) 通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据 离散化 分箱(binning) 分箱技术递归的用于结果划分 直方图分析(histogram) 直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层。 聚类分析 将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点。 基于信息熵的方法等 Take Home Message 1、认识数据: 属性类型 数据集类型 数据的统计描述 (掌握) 数据的相似性度量 (重点,上机实习) 2、数据预处理 缺失值处理(重点,上机实习) 特征筛选(重点,上机实习) 归一化(重点,上机实习) * * * * * * * 如何处理噪声数据 聚类:(监测并且去除孤立点) 噪声处理-聚类 回归 x y y = x + 1 X1 Y1 Y1’ 如何处理噪声数据 2、数据集成 数据集成 数据集成: 将多个数据源中的数据整合到一个一致的存储中 模式集成: - 整合不同数据源中的元数据 - 实体识别问题:匹配来自不同数据源的现实世界的实体
您可能关注的文档
最近下载
- 幕墙样板施工方案(中建完整版).doc VIP
- 通化(2013)1206 接触网无交叉线岔安装图(18#道岔)终稿.pdf VIP
- 鄂东南联盟学校2026年5月高三模拟考试 化学.pdf VIP
- 多重耐药菌预防.pptx VIP
- 追觅洗地机全产品单页手册(外发版)(1).pdf VIP
- 电动重卡智能充换电站项目监理细则.docx VIP
- 餐饮服务与数字化运营 课程标准.docx
- 山东省济宁市邹城市2023年小升初数学试卷(学生版).docx VIP
- 新疆2022系列标准设计图集新22S2 给水工程.docx VIP
- NB_T 31122-2023 风力发电机组在线状态监测装置技术规范.docx VIP
原创力文档

文档评论(0)