- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘 航天五院测试中心软件组 向永清 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 动机:需要是发明之母 数据爆炸问题 自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库、数据仓库和其它信息存储器中 我们正被数据淹没,但却缺乏知识 解决办法:数据仓库与数据挖掘 数据仓库与联机分析处理(OLAP) 从大型数据库的数据中提取有趣的知识(规则,规律性,模式,限制等) 数据处理技术的演进 1960s及以前: 文件管理, 网状 DBMS和IBM的IMS(层次DBMS) 1970s: 关系数据库模型, 关系 DBMS 实现 1980s: RDBMS, 先进的数据模型 (扩充关系的, OO, 演绎的等) 和面向应用 的 DBMS (空间的, 科学的, 工程的等) 1990s—2000s: 数据挖掘和数据仓库, 多媒体数据库以及 Web 数据库 什么是数据挖掘 数据挖掘 (数据库中知识发现) 从大型数据库中提取有趣的 (非平凡的、蕴涵的、先前未知的且是潜在有用的) 信息或模式 其它名称 数据库中知识发现(挖掘) (Knowledge discovery in databases, KDD) 知识提取(knowledge extraction), 数据/模式分析(data/pattern analysis), 数据考古(data archeology) 商务智能(business intelligence) 数据挖掘可能的应用 数据库分析和决策支持 市场分析和管理:针对销售(target marketing), 顾客关系管理,购物篮分析,交叉销售(cross selling),市场分割(market segmentation) 风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析 缺陷定位与异常检测:根据网络日志检测网络异常,根据测试数据发现设计缺陷 数据挖掘可能的应用 其它应用 文本挖掘(新闻组、email、文档资料) 流数据挖掘(Stream data mining) Web挖掘 DNA 数据分析 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 数据挖掘的过程 数据挖掘:KDD的核心 数据挖掘的过程 数据挖掘:KDD的核心 KDD的步骤 学习应用领域 相关的先验知识和应用的目标 创建目标数据集:数据选择 数据清理和预处理(可能占全部工作的 60%) 数据归约与变换 发现有用的特征,维/变量归约,不变量的表示 选择数据挖掘函数 汇总,分类,回归,关联,聚类 KDD的步骤 选择挖掘算法 数据挖掘:搜索有趣的模式 模式评估和知识表示 可视化,变换,删除冗余模式,等 发现知识的使用 典型的数据挖掘系统结构 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 数据挖掘在什么数据上进行 关系数据库 包括面向对象和对象-关系数据库 事务(交易)数据库 数据仓库 其他数据和存储类型 空间和时间数据 时间序列数据和流数据 文本数据库和多媒体数据库 异种数据库和遗产数据库 Web数据库() 数据挖掘在什么数据上进行 数据仓库 数据挖掘在什么数据上进行 数据仓库 数据挖掘在什么数据上进行 数据仓库 数据挖掘在什么数据上进行 多媒体数据库 数据挖掘在什么数据上进行 时间序列数据库 数据挖掘在什么数据上进行 文本数据库 数据仓库与数据挖掘 动机:为什么要进行数据挖掘 数据挖掘的步骤 数据挖掘在什么数据上进行 数据挖掘功能和分类 一些新的研究方向 数据挖掘的功能 概念描述:特征和区分 概化,汇总,比较数据特征,如干燥和潮湿的地区 关联 (相关和因果关系) 多维和单维关联 age(X, “20..29”) ^ income(X, “20..29K”) ?buys(X, “PC”) [support = 2%, confidence = 60%] contains(T, “computer”) ? contains(T, “software”)[support = 1%, confidence = 75%] 数据挖掘的功能 分类和预测 找出描述和识别类或概念的模型(函数),用于将来的预测 例如根据气候对国家分类,或根据单位里程的耗油量对汽车分类 表示:决策树(decision-tree), 分类规则,神经元网络 预测:预测某些未知或遗漏的数值 数据挖掘的功能 聚类分析 类标号(Class label)未知:对数据分组, 形成新的类。例如,对房屋分类,找出分布模式 聚类原则:最大化类内的相似性,最小
您可能关注的文档
- ASME压力容器规范培训教程.ppt
- 装配润滑培训教程.ppt
- 企业员工培训效果的评估.ppt
- 三星贴片机Cp45fv日东培训.ppt
- 商务谈判与技巧.ppt
- 数据仓库培训.ppt
- 炭步卫生站2012年控烟工作培训.ppt
- 新员工培训礼仪—谷.ppt
- 赢在执行力---高效执行力培训教程.ppt
- 浙江正通电子有限公司质量意识培训.ppt
- 《习作:我的心儿怦怦跳》第一课时(教学设计)2023-2024学年统编版语文四年级上册.docx
- 第五单元写话:写图书借阅公约(教学设计)-2023-2024学年二年级语文下册单元写话能力提升(统编版).docx
- 6《画》教学设计-2023-2024学年语文一年级上册统编版.docx
- 3.3体液调节与神经调节的关系 教学设计-2023-2024学年高二上学期生物人教版(2019)选择性必修1.docx
- 2.1 群落的演替教学设计 2023-2024学年高二上学期生物人教版(2019)选择性必修2.docx
- 5.4光合作用与能量转化教学设计-2023-2024学年高一上学期生物人教版(2019)必修1.docx
- 4.2生物多样性及保护教学设计-2023-2024学年高二上学期生物人教版(2019)选择性必修2.docx
- 2024学年高中学会处理突发事件班会教学设计.docx
- 第三单元第15课《Python的图形界面设计》教学设计 2023—2024学年浙教版(2020)初中信息技术八年级上册.docx
- 5.2 国际经济合作(Word教案)2023-2024学年七年级上册初一地理同步备课(湘教版).docx
文档评论(0)