网站大量收购闲置独家精品文档,联系QQ:2885784924

计算思维导论(第2版)课件:数据挖掘基础.pptx

计算思维导论(第2版)课件:数据挖掘基础.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

数据挖掘基础

8.1数据挖掘概述

数据挖掘产生背景

数据分析的主要困难数据的多样性数据价值密度相对较低数据的准确度和可信赖度有待考证数据的生成和更新速度快

数据挖掘的定义

数据挖掘概念数据挖掘:数据挖掘是指从大量的、多样化的、不完全的、有噪声的数据中提取隐含的、事先未知的、有潜在价值信息或知识的过程。

数据挖掘的特点①数据挖掘要处理的数据经常是庞大的数据集。②数据挖掘面对的原始数据是多样化的。③数据挖掘中的数据经常是不完全的或有噪声的。④数据挖掘输出的结果通常是模型或规则。⑤数据挖掘的目标是挖掘未知的但是潜在有价值的信息。

数据挖掘:从大量杂乱无章的数据中提取或“挖掘”知识。最著名的故事

-17+14+=安佛尼·哈德卫伯兰·绍+=达利尔·阿姆斯壮安佛尼·哈德卫美国兰德公司分析报告最值钱的分析报告

统计学可视化高性能计算人工智能数据库技术机器学习DM

数据挖掘过程

问题定义数据探索数据挖掘模型评价与部署数据采集数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据数据理解业务问题理解客户需求定义商业目标定义挖掘目标是指描述用户使用产品必须要完成的任务,是从用户角度出发的需求。即业务需求,它定义了数据挖掘的主题(如成因分析),是从业务角度出发的需求。挖掘的最终结果具有不可预见性,但要解决的问题应是明确的。这里是从商业角度深度理解需求。挖掘目标通常是描述过去,预测未来。

数据采集数据探索数据挖掘模型评价与部署问题定义数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据数据随机抽样分层抽样等距抽样顺序抽样分类抽样……相关性可靠性有效性

数据探索数据数据采集数据挖掘模型评价与部署问题定义数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据特征分析——————分布分析、统计分析、贡献度分析、对比分析、周期性分析、相关分析。质量分析——————缺失值分析、异常值分析、一致性分析。

数据探索数据数据采集数据挖掘模型评价与部署问题定义知识数据准备数据挖掘解释评估模式预处理后的数据数据清洗——————是指发现并纠正数据文件中可识别的错误。如:缺失值处理、异常值处理、一致性处理。数据变换——————是指进行规范化处理。如,成绩开方乘10。数据集成——————把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中在一起,为企业提供全面的数据共享。数据规约——————是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。数据预处理目标数据

数据挖掘模型评价与部署模式预处理后的数据数据探索数据数据采集问题定义数据预处理知识数据准备数据挖掘解释评估目标数据分类预测关联规则聚类分析

数据挖掘模型评价与部署模式预处理后的数据数据探索数据数据采集问题定义数据预处理知识数据准备数据挖掘解释评估目标数据

数据挖掘数据挖掘概念三个经典案例相关领域挖掘过程定义目标数据采集数据探索数据预处理数据挖掘模型评价与部署

8.2数据采集

数据探索数据挖掘模型评价与部署问题定义数据采集数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据数据

数据来源

数据类型以数量形式存在,且可以测量,如温度、销售额定性数据定量数据表示事物性质、规定事物类别,如男女、满意程度分级等。

客户信息选课信息车辆信息……关系数据库数据仓库事务数据库购物篮信息销售人员-导购成交信息围绕主题组织数据仓库存储使用数据立方体的多维数据结构建模010203

文件新闻网页聊天记录……文本数据库其他类型多媒体数据库声文图用于图片检索、视频点播、多媒体综合挖掘等空间数据时间数据序列数据网状数据040506

数据采集方法感器Web爬虫日志文件统计数据收集直接观察法访问法网络调查法实验法文献检索法

空间时间人物事完整性实体完整性属性完整性记录完整性一致性协议一致性结构一致性单位一致性0|11|0name|age|scorename|score|age¥14,777.881.4万增加维度法简单去重法节约性张三Food1李四Food2张三Food1默认值约定特殊字符处理长度范围规范值域范围规范异常处理默认为0,还是上报空值?数据完整性隐患数据一致性隐患

数据来源数据来源数据类型挖掘采集数据采集方法数据原则

8.3数据探索

数据探索数据挖掘模型评价与部署问题定义数据采集数据预处理知识数据准备数据挖掘解释评估模式预处理后的数据目标数据数据

分布分析

理工院校男女比例是多少?

定量数据分析的第一步就是对数据进行分类,即分组。如:性别。通过分组,可以将数据归纳为一张表,这种表也称为频数表。频数表中各组所分配到的总体单位数称为频数或次数;将各组单位数与总体单位数相比,

您可能关注的文档

文档评论(0)

ning2021 + 关注
实名认证
内容提供者

中医资格证持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

相关文档