- 24
- 0
- 约5.21千字
- 约 54页
- 2016-10-16 发布于河南
- 举报
数据预处理ppt
主要内容 2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生 现实世界的数据 不完整的 缺少属性值或某些感兴趣的属性,或仅包含聚集数据。 含噪声的 包含错误或存在偏离期望的离群值。 不一致的 采用的编码或表示不同,如属性名称不同 冗余的 如属性之间可以相互导出 数据错误的危害性 高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力 数据预处理的形式 小结 现实世界的数据一般是脏的、不完整的和不一致的。 数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。 检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。 2.2 描述性数据汇总 获得数据的总体印象对于成功的数据预处理是至关重要的。 描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。 动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。 2.2.1 度量数据的中心趋势 算数平均值 最常用 分布式度量 可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。 sum(
您可能关注的文档
- 教案平行四边形.doc
- 教案二次函数的图象和性质王峰.doc
- 教案设计(杨明芳).doc
- 教案相似三角形的应用李才.doc
- 教育部参赛点与圆的位置关系教案-郑燕尾.doc
- 教育部参赛-二次函数复习-韩仲亮.ppt
- 数与式、方程、不等式.doc
- 散货类质物--盘点管理办法.doc
- 数与形教材研读.doc
- 数与形上课稿.doc
- 《GB 25974.4-2026煤矿用液压支架 第4部分:电液控制系统技术条件》.pdf
- GB 25974.4-2026煤矿用液压支架 第4部分:电液控制系统技术条件.pdf
- 中国国家标准 GB/T 17737.215-2026同轴通信电缆 第1-215部分:环境试验方法 电缆的高温老化.pdf
- 《GB/T 17737.215-2026同轴通信电缆 第1-215部分:环境试验方法 电缆的高温老化》.pdf
- GB/T 17737.215-2026同轴通信电缆 第1-215部分:环境试验方法 电缆的高温老化.pdf
- 2020至2025年车工初级证历年真题汇总 含答案解析 备考专用.docx
- 05.施工便道临时用地占用耕地和永农论证报告.docx
- 2026高三语文复习第六讲 赏析句子的表达效果.pptx
- 2026高三生物复习模块一 第一单元 第5课时 核酸是遗传信息的携带者.pptx
- 2026高三语文复习第六讲 特色:故事有何吸引力、感染力?.pptx
最近下载
- 《电磁兼容原理与应用》全套教学课件.pptx
- Unit+4+Eat+Well+Section+A+1a-1d+课件+2024-2025学年人教版(2024)七年级英语下册++.pptx VIP
- V2G双向充换电设施接入电网典型电气接线.pdf VIP
- 2023年中国化学奥林匹克竞赛福建赛区预赛试题真题.pdf VIP
- 2025年中国化学奥林匹克竞赛福建预赛试题及答案_可搜索.pdf VIP
- 湖北省十一校2026 届高三第二次联考化学+答案.docx
- 马工程《刑事诉讼法》(第四版)第一章 课后思考题参考答案.pdf VIP
- 异型盖冲压模具设计.doc VIP
- 建设项目安全设施设计专篇.pdf VIP
- 教科版船的研究3.用沉的材料造船 五年级科学下册教学设计教案(教学反思全).docx VIP
原创力文档

文档评论(0)