主要内容 2.1 为什么要预处理数据 2.2 描述性数据汇总 2.3 数据清理 2.4 数据集成和变换 2.5 数据归约 2.6 数据离散化和概念分层产生 现实世界的数据 不完整的 缺少属性值或某些感兴趣的属性,或仅包含聚集数据。 含噪声的 包含错误或存在偏离期望的离群值。 不一致的 采用的编码或表示不同,如属性名称不同 冗余的 如属性之间可以相互导出 数据错误的危害性 高昂的操作费用 糟糕的决策制定 组织的不信任 分散管理的注意力 数据预处理的形式 小结 现实世界的数据一般是脏的、不完整的和不一致的。 数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。 高质量的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤。 检测异常数据、尽早地调整数据并归约待分析的数据,将在决策过程中得到高回报。 2.2 描述性数据汇总 获得数据的总体印象对于成功的数据预处理是至关重要的。 描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。 动机:更好的理解数据。 主要内容:度量数据的中心趋势和离散程度、描述数据汇总的图形显示。 2.2.1 度量数据的中心趋势 算数平均值 最常用 分布式度量 可以通过如下方法计算度量(即函数):将数据集划分成较小的子集,计算每个子集的度量,然后合并计算结果,得到原(整个)数据集的度量值。 sum(
您可能关注的文档
- 商务星球版八年级上册(新)第三章第一节合理利用土地资源(共51张)研讨.ppt
- 输血核对及操作流程研讨.ppt
- 熟悉中西餐菜点知识及饮食研讨.ppt
- 暑期作文辅导课研讨.ppt
- 树叶粘贴画欣赏研讨.ppt
- 树叶粘贴画研讨.ppt
- 树叶粘贴画制作研讨.ppt
- 树与最小生成树研讨.ppt
- 数据仓库系统研讨.ppt
- 数据传输光缆项目研讨.ppt
- 2026届甘肃省民勤三中高考化学三模试卷含解析.doc
- 2021年人力资源年终工作汇报 附2026年人力预算测算表 可直接套用.pptx
- 2021年直播间氛围打造提升停留时长培训课件.pptx
- 2026届广西钦州市第二中学高三第二次模拟考试历史试卷含解析.doc
- 2020应对儿童厌学叛逆专属心理健康教育宣讲课件.pptx
- 2026届江苏省南通巿启东中学5月高三月考物理试题.doc
- 2026年初中语文写作课件.pptx
- 2026年电子元件检测实训教程PPT.pptx
- 2026届安徽省肥东县圣泉中学高三下期末模拟联考数学试题.doc
- 广东省惠东县惠东高级中学2026届高三考前热身生物试卷含解析.doc
最近下载
- 理查·施特劳斯声乐套曲《少女之花》的演唱分析.pdf
- 烘焙食品安全法规与标准.docx VIP
- 中国部分少数民族及其民俗风情(完整版).pptx VIP
- 2026年主管护师(368)《基础知识》考前密卷一全解析版.docx VIP
- 项目二 货币资金的核算.pptx VIP
- TJSCTS 40-2023 公路工程建设项目BIM+GIS管理平台技术要求.docx VIP
- 《气瓶充装站安全技术条件》GB27550-2011.doc VIP
- 07J912-1 变配电所建筑构造.pdf VIP
- 2025年中考数学几何模型归纳训练:三角形中的重要模型之等直内接等直模型与等直+高分模型解读与提分训练(解析版).pdf VIP
- 广州铁路职业技术学院辅导员考试试题2024.pdf VIP
原创力文档

文档评论(0)