11、数据挖掘期末复习2015资料.ppt

下载文档 降价啦

0
0
约4.34千字
约 47页
2017-06-15 发布于湖北
举报
版权申诉
保障服务

11、数据挖掘期末复习2015资料.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

11、数据挖掘期末复习2015资料

多层关联——一致支持度 VS. 递减支持度一致支持度：对所有层都使用一致的最小支持度优点：搜索时容易采用优化策略，即一个项如果不满足最小支持度，它的所有子项都可以不用搜索缺点：最小支持度值设置困难太高：将丢掉出现在较低抽象层中有意义的关联规则太低：会在较高层产生太多的无兴趣的规则递减支持度：在较低层使用递减的最小支持度抽象层越低，对应的最小支持度越小 Computer [support=10%] Laptop [support=6%] Desktop [support=4%] min_sup = 5% min_sup = 5% min_sup = 3% 关联规则的兴趣度度量客观度量两个流行的度量指标支持度置信度分类和预测数据分类——一个两步过程第一步，建立一个模型，描述预定数据类集和概念集第二步，使用模型，对将来的或未知的对象进行分类有指导的学习 VS. 无指导的学习有指导的学习（用于分类）模型的学习在被告知每个训练样本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无指导的学习（用于聚类）每个训练样本的类编号是未知的，要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类用判定树归纳分类判定树的生成由两个阶段组成判定树构建开始时，所有的训练样本都在根节点递归的通过选定的属性，来划分样本（必须是离散值）树剪枝许多分枝反映的是训练数据中的噪声和孤立点，树剪枝试图检测和剪去这种分枝防止应用判定树分类中的数据过分适应的方法先剪枝：通过提前停止树的构造——如果在一个节点划分样本将导致低于预定义临界值的分裂（e.g. 使用信息增益度量）选择一个合适的临界值往往很困难后剪枝：由“完全生长”的树剪去分枝——对于树中的每个非树叶节点，计算该节点上的子树被剪枝可能出现的期望错误率使用一个独立的测试集来评估每颗树的准确率，就能得到具有最小期望错误率的判定树 ? 后向传播分类后向传播是一种神经网络学习算法模糊数学的基本思想基本思想用属于程度代替属于或不属于。某个人属于秃子的程度为0.8, 另一个人属于秃子的程度为0.3等. 例三角形识别（用于识别染色体及白血球分类）近似直角三角形: 近似等腰三角形: 近似等边三角形: 非典型三角形：粗糙集理论是建立在不可分辨关系上的。上近似与下近似在RS理论中，集合A的下近似为所有一定属于A的等价类所组成的集合集合A的上近似为所有与A相交非空的等价类组成的集合，即所有可能属于A的对象组成的最小集合聚类分析什么是聚类分析？聚类分析将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程聚类是一种无指导的学习：没有预定义的类编号主要的聚类方法聚类分析算法种类繁多，具体的算法选择取决于数据类型，聚类的应用和目的，常用的聚类算法包括：划分方法层次的方法基于密度的方法基于网格的方法基于模型的方法基于密度的方法基于距离的聚类方法的缺点：只能发现球状的簇，难以发现任意形状的簇。基于密度的聚类：只要临近区域的密度（对象或数据点的数目）超过某个临界值，就继续聚类。优点：可以过滤掉“噪声”和“孤立点”，发现任意形状的簇。二元变量的相异度——示例 P256 例二元变量之间的相异度（病人记录表） Name是对象标识 gender是对称的二元变量（此例认为不重要，不计算）其余属性都是非对称的二元变量如果Y和P（positive阳性）为1，N为0，则： Jack和mary最可能患类似疾病孤立点挖掘什么是孤立点？一个数据集与其他数据有着显著区别的数据对象的集合电子商务与数据挖掘对电子商务网站的Web数据挖掘我们可以在一个电子商务网站挖掘些什么东西？内容挖掘结构挖掘使用挖掘数据挖掘——期末复习数据挖掘概论什么是数据挖掘？数据挖掘 (从数据中发现知识) 从大量的数据中挖掘出令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识数据挖掘的替换词数据库中的知识挖掘（KDD）知识提炼、数据/模式分析数据考古数据捕捞、信息收获等等。数据挖掘（KDD）的步骤数据清理: (这个可能要占全过程60％的工作量) 数据集成数据选择数据变换数据挖掘（选择适当的算法来找到感兴趣的模式）模式评估知识表示体系结构:典型数据挖掘系统数据仓库数据清洗过滤数据库数据库或数据仓库服务器数据挖掘引擎模式评估图形用户界面知识库数据集成数据挖掘的主要功能概念/类描述: 特性化和区分关联分析分类和预测聚类分析孤立点分析趋势和演变分析