数据挖掘培训.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 航天五院测试中心软件组 向永清 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 动机:需要是发明之母 数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库、数据仓库和其它信息存储器中 我们正被数据淹没,但却缺乏知识 解决办法:数据仓库与数据挖掘 数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等) 数据处理技术的演进 1960s及以前: 文件管理, 网状 DBMS和IBM的IMS(层次DBMS) 1970s: 关系数据库模型, 关系 DBMS 实现 1980s: RDBMS, 先进的数据模型 (扩充关系的, OO, 演绎的等) 和面向应用 的 DBMS (空间的, 科学的, 工程的等) 1990s—2000s: 数据挖掘和数据仓库, 多媒体数据库以及 Web 数据库 什么是数据挖掘 数据挖掘 (数据库中知识发现) 从大型数据库中提取有趣的 (非平凡的、蕴涵的、先前未知的且是潜在有用的) 信息或模式 其它名称 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD) 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology) 商务智能(business intelligence) 数据挖掘可能的应用 数据库分析和决策支持 市场分析和管理:针对销售(target marketing), 顾客关系管理,购物篮分析,交叉销售(cross selling),市场分割(market segmentation) 风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析 缺陷定位与异常检测:根据网络日志检测网络异常,根据测试数据发现设计缺陷 数据挖掘可能的应用 其它应用 文本挖掘(新闻组、email、文档资料) 流数据挖掘(Stream data mining) Web挖掘 DNA 数据分析 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 数据挖掘的过程 数据挖掘:KDD的核心 数据挖掘的过程 数据挖掘:KDD的核心 KDD的步骤 学习应用领域 相关的先验知识和应用的目标 创建目标数据集:数据选择 数据清理和预处理(可能占全部工作的 60%) 数据归约与变换 发现有用的特征,维/变量归约,不变量的表示 选择数据挖掘函数 汇总,分类,回归,关联,聚类 KDD的步骤 选择挖掘算法 数据挖掘:搜索有趣的模式 模式评估和知识表示 可视化,变换,删除冗余模式,等 发现知识的使用 典型的数据挖掘系统结构 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 数据挖掘在什么数据上进行 关系数据库 包括面向对象和对象-关系数据库 事务(交易)数据库 数据仓库 其他数据和存储类型 空间和时间数据 时间序列数据和流数据 文本数据库和多媒体数据库 异种数据库和遗产数据库 Web数据库() 数据挖掘在什么数据上进行 数据仓库 数据挖掘在什么数据上进行 数据仓库 数据挖掘在什么数据上进行 数据仓库 数据挖掘在什么数据上进行 多媒体数据库 数据挖掘在什么数据上进行 时间序列数据库 数据挖掘在什么数据上进行 文本数据库 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 数据挖掘的功能 概念描述:特征和区分 概化,汇总,比较数据特征,如干燥和潮湿的地区 关联 (相关和因果关系) 多维和单维关联 age(X, “20..29”) ^ income(X, “20..29K”) ?buys(X, “PC”) [support = 2%, confidence = 60%] contains(T, “computer”) ? contains(T, “software”)[support = 1%, confidence = 75%] 数据挖掘的功能 分类和预测 找出描述和识别类或概念的模型(函数),用于将来的预测 例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类 表示:决策树(decision-tree), 分类规则,神经元网络 预测:预测某些未知或遗漏的数值 数据挖掘的功能 聚类分析 类标号(Class label)未知:对数据分组, 形成新的类。例如,对房屋分类,找出分布模式 聚类原则:最大化类内的相似性,最小

您可能关注的文档

文档评论(0)

蓝色天空 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档