常用数据挖掘算法.docxVIP

  • 7
  • 0
  • 约5.86千字
  • 约 12页
  • 2021-04-21 发布于天津
  • 举报
常用数据挖掘算法 常用数据挖掘算法 (2012-02-03 22:55:42) From /s/blog_68ffc7a40100wnb4.html 本文对数据挖掘的基础理论,做个框架性的总结概要,罗列 些通用的数据挖掘的算法和思路,对于自己来讲是一个回 顾,同时也便于自己以后查阅。 频繁模式挖掘,关系挖掘,以及相互关系挖掘 所谓频繁模式挖掘,指的是比如在商品交易数据库记录中, 所谓频繁模式挖掘, 指的是比如在商品交易数据库记录中, 找出一起出现的商品集合,这些商品集合出现的频率要高于 个阈值,这些经常出现的商品集合称之为频繁模式。 频繁模式的思路很简单,首先统计出每个单个商品出现的次 数,这就构成了一个一维表。然后再根据一维表,商品两两 组合产生一个二维表。然后再由二维表产生三维表,直至到 n 维表。其中可以利用 apriori ,进行剪枝,也就是说一维表 中如果出现的频率低于阈值的商品,就可以直接去掉,应为 包含该商品的高维商品集合的出现频率不可能高于该阈值, 可以直接剪枝去掉。 频繁模式挖掘还有一种更加高效的方式,就是 FP Growth , 该方法通过扫描一遍数据库,在内存中构造一颗 FP tree ,基于这棵树就可以产生所有的频繁模式。很显然 FP Growth 算法的效率要高很多,但是其缺陷也很明显,在内 存中维护一颗 FP tree 的开销也是很大的。为了解决这个问题,一个直接的思 路是将数据库水平分表到各台机器上,在各台机器上执行本 地的 FP Growth ,然后再将各台机器上的结果汇总起来, 得到最终的 FP Growth 的结果。 所谓关系挖掘,值得是挖掘出各个项目之间的因果关系。关 系挖掘的基础是频繁模式挖掘,通过频繁模式挖掘,很容易 得出关系, 举例就很容易明白, 比如我们得到一个频繁集合: 那么通过排列组合可以得到 l 的子集集合: 那么很容易得到下面的推理集合,也就是挖掘出的关系: 所有的关系挖掘本质上都是基于频繁模式推导出来的。 在关系挖掘中,有一种非常有用的关系模式挖掘 :mining quantitative association rules 。所谓 quantitative association rules 是这样一种关系 模式: 该关系模式的挖掘,首先是确定我们所感兴趣的属性: quan1 ,,然后进行频quan1,quan2,cat quan1 , ,然后进行频 quan2 按照一定的间隔划分成一定的 catorgory 繁模式挖掘,得出一些关系,然后将这些关系按照grid 繁模式挖掘,得出一些关系,然后将这些关系按照 grid 进行 聚合,生成最后的关系模式。 通过关系挖掘挖出的关系中往往有很多不是非常有用,因此 需要通过另外的指标排除一些这样的关系,这个指标就是 correlation ,如下: Correlation 是用来衡量 A ,B 之间的相关性,从而排除那些 没有意义的规则。 对于上述所提到的关系挖掘,有一种称之为 constraint-based association mining ,这是一种特殊的关系挖掘,它对于所挖掘出的条件 加了一些限制条件,这些限制条件可能是由用户提出的,其 主要目的是排除一些不感兴趣的关系。对于这种关系挖掘, 最直接的办法先按照最普通的关系挖掘方法进行挖掘,然后 利用条件来对结果进行。但是还有更好的方法,就是在挖掘 的过程中利用这些条件, 从而缩小整个挖掘过程中的search 的过程中利用这些条件, 从而缩小整个挖掘过程中的 search space ,从而提高效率。这些限制条件分为这么几种: antimonotonic , monotonic , succinct , convertible , inconvertible ,针对每一种的限制条件,都有一些通用的方 法或策略来缩小挖掘的 search space ,可参阅相关资料。 分类和预测 分类树 分类树是一种很常用的分类方法,它该算法的框架表述还是 比较清晰的,从根节点开始不断得分治,递归,生长,直至 得到最后的结果。 根节点代表整个训练样本集 ,通过在每个节 点对某个属性的测试验证 ,算法递归得将数据集分成更小的 数据集 .某一节点对应的子树对应着原数据集中满足某一属 性测试的部分数据集 .这个递归过程一直进行下去。 该算法是数据挖掘中常用的一类方法。 贝叶斯分类器 贝叶斯分类的思想很简单,就是计算属性和分类之间的条件 概率,选择使得条件概率最大的分类作为最终的分类结果, 这是一种基于统计的分类方法,得到了广泛的引用。 贝叶斯分类器分为两种,一种是朴素贝叶斯分类器,它基于 贝叶斯理论: 其中 X 代表特征向量 , C 代表分类 .我们的目标就是找出使得 这个后验概率最大的

文档评论(0)

1亿VIP精品文档

相关文档