- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘——期末复习
数据挖掘——期末复习 第一章、数据挖掘概论 数据挖掘: 数据库中的知识挖掘(KDD) 数据挖掘——知识挖掘的核心 知识挖掘的步骤 了解应用领域 了解相关的知识和应用的目标 创建目标数据集: 选择数据 数据清理和预处理: (这个可能要占全过程60%的工作量) 数据缩减和变换 找到有用的特征,维数缩减/变量缩减,不变量的表示。 选择数据挖掘的功能 数据总结, 分类模型数据挖掘, 回归分析, 关联规则挖掘, 聚类分析等. 选择挖掘算法 数据挖掘: 寻找感兴趣的模式 模式评估和知识表示 可视化,转换,消除冗余模式等等 运用发现的知识 体系结构:典型数据挖掘系统 数据挖掘的主要功能 概念/类描述: 特性化和区分 归纳,总结和对比数据的特性。 关联分析 发现数据之间的关联规则,这些规则展示属性-值频繁的在给定的数据中所一起出现的条件。 分类和预测 通过构造模型 (或函数)用来描述和区别类或概念,用来预测类型标志未知的对象类。 聚类分析 将类似的数据归类到一起,形成一个新的类别进行分析。 孤立点分析 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 趋势和演变分析 描述行为随时间变化的对象的发展规律或趋势 数据挖掘:多个学科的融合 数据挖掘的主要问题 挖掘方法 在不同的数据类型中挖掘不同类型的知识, e.g., 生物数据, 流式数据, Web数据 性能: 算法的有效性、可伸缩性和并行处理 模式评估: 兴趣度问题 背景知识的合并 处理噪声何不完全数据 并行, 分布式和增量挖掘算法 新发现知识与已有知识的集成: 知识融合 用户交互 数据挖掘查询语言和特定的数据挖掘 数据挖掘结果的表示和显示 多个抽象层的交互知识挖掘 应用和社会因素 特定域的数据挖掘 不可视的数据挖掘 数据安全,完整和保密的保护 第二章、数据仓库和OLAP技术 什么是数据仓库? 数据仓库的定义很多,但却很难有一种严格的定义 它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。 为统一的历史数据分析提供坚实的平台,对信息处理提供支持 “数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程.”—W. H. Inmon(数据仓库构造方面的领头设计师) 建立数据仓库(data warehousing): 构造和使用数据仓库的过程。 数据仓库与异种数据库集成 传统的异种数据库集成: 在多个异种数据库上建立包装程序(wrappers)和中介程序(mediators ) 查询驱动方法——当从客户端传过来一个查询时,首先使用元数据字典将查询转换成相应异种数据库上的查询;然后,将这些查询映射和发送到局部查询处理器 缺点:复杂的信息过虑和集成处理,竞争资源 数据仓库: 更新驱动 将来自多个异种源的信息预先集成,并存储在数据仓库中,供直接查询和分析 高性能 OLTP系统和OLAP系统的比较 从关系表和电子表格到数据立方体 数据仓库和数据仓库技术基于多维数据模型。这个模型把数据看作是数据立方体形式。多维数据模型围绕中心主题组织,该主题用事实表表示。事实是数值度量的。 数据立方体允许以多维数据建模和观察。它由维和事实定义。 维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联,称为维表。 事实表包括事实的名称或度量以及每个相关维表的关键字 在数据仓库的研究文献中,一个n维的数据的立方体叫做基本方体。给定一个维的集合,我们可以构造一个方体的格,每个都在不同的汇总级或不同的数据子集显示数据,方体的格称为数据立方体。0维方体存放最高层的汇总,称作顶点方体;而存放最底层汇总的方体则称为基本方体。 度量的分类 一个数据立方体的度量是一个数值函数,该函数可以对数据立方体的每一个点求值。度量可以根据其所用的聚集函数分为三类: 分布的(distributive):将函数用于n个聚集值得到的结果和将函数用于所有数据得到的结果一样。 比如:count(),sum(),min(),max()等 代数的(algebraic):函数可以由一个带M个参数的代数函数计算(M为有界整数),而每个参数值都可以有一个分布的聚集函数求得。 比如:avg(),min_N(),standard_deviation() 整体的(holistic):描述函数的子聚集所需的存储没有一个常数界。 比如:median(),mode(),rank() 概念分层:location维的一个概念分层 多维数据模型上的OLAP操作 上卷(roll-up):汇总数据 通过一个维的概念分层向上攀升或者通过维规约 下钻(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 切片和
您可能关注的文档
- 教育部-科技基础资源数据平台评估规则.doc.doc
- 教学设计与多媒体课件的整合-茂名市教育局.ppt
- 政务和.公益域名注册流程-威海机构编制网.doc
- 数位逻辑实习.PDF
- 教学项目一整流电源电路安装与调试.PDF
- 数字信号处理-南方医科大学.doc
- 数字信号处理DigitalSignalProcessing(DSP)-Read.ppt
- 数字信号处理-北京理工大学现代教育技术研究所.doc
- 数位整合传播研究论文研读报告.ppt
- 数字信号处理》(赵晓芳.doc
- 自然资源部第四海洋研究所2024年度公开招聘应届博士毕业生(第二批)笔试模拟试题及答案详解1套.docx
- 自然资源部第一海洋研究所2025年度公开招聘工作人员笔试模拟试题带答案详解.docx
- 酒泉市中级人民法院公开招聘聘用制人员笔试模拟试题及参考答案详解一套.docx
- 龙岩市司法局选任2025届龙岩市人民检察院人民监督员的笔试模拟试题及参考答案详解.docx
- 青岛海洋地质研究所2024年度第二批公开招聘工作人员笔试备考题库带答案详解.docx
- 铜仁市司法局选聘20名行政执法人民监督员的笔试模拟试题及参考答案详解1套.docx
- 西藏林芝市发展和改革委员会救灾物资储备中心招聘笔试模拟试题及答案详解一套.docx
- 苏州市公安局姑苏分局警务辅助人员招聘92人笔试模拟试题及参考答案详解1套.docx
- 自然资源部天津海水淡化与综合利用研究所2025年公开招聘应届博士毕业生笔试模拟试题附答案详解.docx
- 镇江市体育局下属事业单位2025年编外用工集中招聘笔试模拟试题及参考答案详解1套.docx
最近下载
- 统编版三年级上册语文 夸张句-修辞手法 课件(共16张PPT)(含音频+视频).pptx VIP
- 煤炭智能化掘采技术与装备.ppt
- 2023年全国首届卫生监督技能竞赛参考题.docx VIP
- GB50052-2009 供配电系统设计规范.pdf VIP
- 初中语文暑假班课程介绍 .docx
- 2025年山东太阳纸业股份有限公司校园招聘模拟试题附带答案详解及答案一套.docx VIP
- 2025年华阳新材料科技集团有限公司招聘笔试备考试题及答案解析.docx VIP
- PW6566_2.0数据手册下载.pdf VIP
- 2025年华阳新材料科技集团有限公司人员招聘笔试备考试题及答案解析.docx VIP
- 气瓶检验质量管理手册含程序文件符合TSGZ7001-2021《核准规则》附录F .pdf VIP
文档评论(0)