常用数据挖掘算法.docxVIP

下载本文档

7
0
约5.86千字
约 12页
2021-04-21 发布于天津
举报

常用数据挖掘算法.docx

常用数据挖掘算法常用数据挖掘算法 (2012-02-03 22:55:42) From /s/blog_68ffc7a40100wnb4.html 本文对数据挖掘的基础理论，做个框架性的总结概要，罗列些通用的数据挖掘的算法和思路，对于自己来讲是一个回顾，同时也便于自己以后查阅。频繁模式挖掘，关系挖掘，以及相互关系挖掘所谓频繁模式挖掘，指的是比如在商品交易数据库记录中，所谓频繁模式挖掘，指的是比如在商品交易数据库记录中，找出一起出现的商品集合，这些商品集合出现的频率要高于个阈值，这些经常出现的商品集合称之为频繁模式。频繁模式的思路很简单，首先统计出每个单个商品出现的次数，这就构成了一个一维表。然后再根据一维表，商品两两组合产生一个二维表。然后再由二维表产生三维表，直至到 n 维表。其中可以利用 apriori ，进行剪枝，也就是说一维表中如果出现的频率低于阈值的商品，就可以直接去掉，应为包含该商品的高维商品集合的出现频率不可能高于该阈值，可以直接剪枝去掉。频繁模式挖掘还有一种更加高效的方式，就是 FP Growth ，该方法通过扫描一遍数据库，在内存中构造一颗 FP tree ，基于这棵树就可以产生所有的频繁模式。很显然 FP Growth 算法的效率要高很多，但是其缺陷也很明显，在内存中维护一颗 FP tree 的开销也是很大的。为了解决这个问题，一个直接的思路是将数据库水平分表到各台机器上，在各台机器上执行本地的 FP Growth ，然后再将各台机器上的结果汇总起来，得到最终的 FP Growth 的结果。所谓关系挖掘，值得是挖掘出各个项目之间的因果关系。关系挖掘的基础是频繁模式挖掘，通过频繁模式挖掘，很容易得出关系，举例就很容易明白，比如我们得到一个频繁集合：那么通过排列组合可以得到 l 的子集集合：那么很容易得到下面的推理集合，也就是挖掘出的关系：所有的关系挖掘本质上都是基于频繁模式推导出来的。在关系挖掘中，有一种非常有用的关系模式挖掘 :mining quantitative associationrules 。所谓 quantitative association rules 是这样一种关系模式：该关系模式的挖掘，首先是确定我们所感兴趣的属性： quan1 ，，然后进行频quan1,quan2,cat quan1 ，，然后进行频 quan2 按照一定的间隔划分成一定的 catorgory 繁模式挖掘，得出一些关系，然后将这些关系按照grid 繁模式挖掘，得出一些关系，然后将这些关系按照 grid 进行聚合，生成最后的关系模式。通过关系挖掘挖出的关系中往往有很多不是非常有用，因此需要通过另外的指标排除一些这样的关系，这个指标就是 correlation ，如下： Correlation 是用来衡量 A ，B 之间的相关性，从而排除那些没有意义的规则。对于上述所提到的关系挖掘，有一种称之为 constraint-based association mining ，这是一种特殊的关系挖掘，它对于所挖掘出的条件加了一些限制条件，这些限制条件可能是由用户提出的，其主要目的是排除一些不感兴趣的关系。对于这种关系挖掘，最直接的办法先按照最普通的关系挖掘方法进行挖掘，然后利用条件来对结果进行。但是还有更好的方法，就是在挖掘的过程中利用这些条件，从而缩小整个挖掘过程中的search 的过程中利用这些条件，从而缩小整个挖掘过程中的 search space ，从而提高效率。这些限制条件分为这么几种： antimonotonic ， monotonic ， succinct ， convertible ， inconvertible ，针对每一种的限制条件，都有一些通用的方法或策略来缩小挖掘的 search space ，可参阅相关资料。分类和预测分类树分类树是一种很常用的分类方法，它该算法的框架表述还是比较清晰的，从根节点开始不断得分治，递归，生长，直至得到最后的结果。根节点代表整个训练样本集 ,通过在每个节点对某个属性的测试验证 ,算法递归得将数据集分成更小的数据集 .某一节点对应的子树对应着原数据集中满足某一属性测试的部分数据集 .这个递归过程一直进行下去。该算法是数据挖掘中常用的一类方法。贝叶斯分类器贝叶斯分类的思想很简单，就是计算属性和分类之间的条件概率，选择使得条件概率最大的分类作为最终的分类结果，这是一种基于统计的分类方法，得到了广泛的引用。贝叶斯分类器分为两种，一种是朴素贝叶斯分类器，它基于贝叶斯理论：其中 X 代表特征向量 , C 代表分类 .我们的目标就是找出使得这个后验概率最大的

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

常用数据挖掘算法.docxVIP