11、数据挖掘期末复习2015资料.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
11、数据挖掘期末复习2015资料

多层关联——一致支持度 VS. 递减支持度 一致支持度:对所有层都使用一致的最小支持度 优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索 缺点:最小支持度值设置困难 太高:将丢掉出现在较低抽象层中有意义的关联规则 太低:会在较高层产生太多的无兴趣的规则 递减支持度:在较低层使用递减的最小支持度 抽象层越低,对应的最小支持度越小 Computer [support=10%] Laptop [support=6%] Desktop [support=4%] min_sup = 5% min_sup = 5% min_sup = 3% 关联规则的兴趣度度量 客观度量 两个流行的度量指标 支持度 置信度 分类和预测 数据分类——一个两步过程 第一步,建立一个模型,描述预定数据类集和概念集 第二步,使用模型,对将来的或未知的对象进行分类 有指导的学习 VS. 无指导的学习 有指导的学习(用于分类) 模型的学习在被告知每个训练样本属于哪个类的“指导”下进行 新数据使用训练数据集中得到的规则进行分类 无指导的学习(用于聚类) 每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的 通过一系列的度量、观察来建立数据中的类编号或进行聚类 用判定树归纳分类 判定树的生成由两个阶段组成 判定树构建 开始时,所有的训练样本都在根节点 递归的通过选定的属性,来划分样本 (必须是离散值) 树剪枝 许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝 防止应用判定树分类中的数据过分适应的方法 先剪枝:通过提前停止树的构造——如果在一个节点划分样本将导致低于预定义临界值的分裂(e.g. 使用信息增益度量) 选择一个合适的临界值往往很困难 后剪枝:由“完全生长”的树剪去分枝——对于树中的每个非树叶节点,计算该节点上的子树被剪枝可能出现的期望错误率 使用一个独立的测试集来评估每颗树的准确率,就能得到具有最小期望错误率的判定树 ? 后向传播分类 后向传播是一种神经网络学习算法 模糊数学的基本思想 基本思想 用属于程度代替属于或不属于。 某个人属于秃子的程度为0.8, 另一个人属于 秃子的程度为0.3等. 例 三角形识别(用于识别染色体及白血球分类) 近似直角三角形: 近似等腰三角形: 近似等边三角形: 非典型三角形: 粗糙集理论是建立在不可分辨关系上的。 上近似与下近似 在RS理论中,集合A的下近似为所有一定属于A的等价类所组成的集合 集合A的上近似为所有与A相交非空的等价类组成的集合,即所有可能属于A的对象组成的最小集合 聚类分析 什么是聚类分析? 聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程 聚类是一种无指导的学习:没有预定义的类编号 主要的聚类方法 聚类分析算法种类繁多,具体的算法选择取决于数据类型,聚类的应用和目的,常用的聚类算法包括: 划分方法 层次的方法 基于密度的方法 基于网格的方法 基于模型的方法 基于密度的方法 基于距离的聚类方法的缺点:只能发现球状的簇,难以发现任意形状的簇。 基于密度的聚类:只要临近区域的密度(对象或数据点的数目)超过某个临界值,就继续聚类。 优点:可以过滤掉“噪声”和“孤立点”,发现任意形状的簇。 二元变量的相异度——示例 P256 例 二元变量之间的相异度 (病人记录表) Name是对象标识 gender是对称的二元变量(此例认为不重要,不计算) 其余属性都是非对称的二元变量 如果Y和P(positive阳性)为1,N为0,则: Jack和mary最可能患类似疾病 孤立点挖掘 什么是孤立点? 一个数据集与其他数据有着显著区别的数据对象的集合 电子商务与数据挖掘 对电子商务网站的Web数据挖掘 我们可以在一个电子商务网站挖掘些什么东西? 内容挖掘 结构挖掘 使用挖掘 数据挖掘——期末复习 数据挖掘概论 什么是数据挖掘? 数据挖掘 (从数据中发现知识) 从大量的数据中挖掘出令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识 数据挖掘的替换词 数据库中的知识挖掘(KDD) 知识提炼、 数据/模式分析 数据考古 数据捕捞、信息收获等等。 数据挖掘(KDD)的步骤 数据清理: (这个可能要占全过程60%的工作量) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模式) 模式评估 知识表示 体系结构:典型数据挖掘系统 数据仓库 数据清洗 过滤 数据库 数据库或数据仓库服务器 数据挖掘引擎 模式评估 图形用户界面 知识库 数据集成 数据挖掘的主要功能 概念/类描述: 特性化和区分 关联分析 分类和预测 聚类分析 孤立点分析 趋势和演变分析

文档评论(0)

10577 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档