数据挖掘—部分算法分析信.ppt

20150518 聚类算法——DBSCAN算法 Epsilon为半径,minPoints为在该半径内至少的对象个数。聚类算法——DBSCAN算法聚类算法——DBSCAN算法聚类算法——EM算法聚类算法——EM算法 从对参数值进行初始猜测开始,用初始猜测值对每个实例进行聚类概率计算,用这些概率对参数进行重新估计,然后重复此过程。(使用期望最大化进行聚类) 步骤: 1)计算聚类概率; 2)计算分布参数;关联规则关联规则——Apriori算法关联规则——Apriori算法 Apriori算法共有四种不同的因素用于决定排序规则: 1)置信度,即同时被前提条件和结论所涵盖的范例比例; 2)提升度:即等于置信度除以支持度; 3)平衡度:在前提条件和结论是统计独立的条件下,被前提条件和结论同时涵盖的超出期望值的那部分范例的比例; 4)可信度:一种测量法;关联规则——PredictiveApriori算法关联规则——PredictiveApriori算法 将置信度和支持度合并为预测精度而成为单一度测量法,然后依次寻找n个最好关联规则。关联规则——Tertius算法 根据确认度来寻找规则,像Apriori一样寻找其结论中含有多重条件的规则,不同的是这些条件之间是“或”的关系。比较:决策树——ADTreeADTree ADTree是决策树的一种(交互决策树),提升循环次数只是其中的一个参数,且该参数可以被调节,以便适应数据集及在复杂程度和精确度之间进行折衷。 以上就是我们小组关于数据挖掘中的一些算法的比较。 ppt上部分的概念描述摘自Witten等著,董琳等译,机械工业出版社出版的《数据挖掘——实用机器学习技术》,2013. 数据挖掘 ——部分算法分析分类 聚类 关联规则决策树 决策树:一个决策树上的叶节点对所有到达叶子的实例给出一个分类或者是一组分类,或是包含了所有可能分类的概率分布。 分类规则 分类规则:从一个决策树上直接读出一组规则是容易的。每一片叶子可以产生出一条规则。规则的结论就是叶子上标注的类。这个过程能产生明确的规则,它们执行的次序是无关的。但是,通常从决策树上直接读出的规则的复杂度远远超出所需,所以,为了去除一些冗余的测试,常需要对决策树上得到的规则进行修剪。关联规则 能够预测任何属性,不仅仅是类,所以关联规则也能预测属性的组合。不同的关联规则揭示出数据集的不同规律,通常用来预测不同的事物。 覆盖量(支持):指关联规则能够正确预测的实例数量; 置信度:指将正确预测的实例数量表示为它在关联规则应用所涉及的全部实例中占据的比例。分类算法——ID3算法分类算法——ID3算法分类算法——J48算法ID3算法和J48算法的比较ID3算法和J48算法的比较贝叶斯分类 贝叶斯分类是一种基于统计学的分类方法,可以预测一个类成员关系的可能性,即给定一个样本属于一个特定类的概率。主要使用的两种贝叶斯方法包括朴素贝叶斯方法和贝叶斯网络方法。贝叶斯分类器 1)打开weka,选择文件; 2)选择Classify; 3)选择weka目录下的classifiers-bayes-NaiveBayes; 它实现的是朴素贝叶斯分类器。 NaiveBayes算法J48算法和NaiveBayes算法的比较贝叶斯模型 优点:处理速度快而且正确率高,可应用于文档分类; 不足:朴素贝叶斯法忽略了每个单词在文档中出现的次数,而在决定一个文档的分类时,这些信息拥有潜在的重要价值。朴素贝叶斯分类器和决策树的比较 朴素贝叶斯分类器只能表达较简单的分布; 决策树能表达至少可以近似表达任意分布; 决策树的不足:将训练集分隔成越来越小的数据集时,必然造成概率估计可靠性的下降。学习贝叶斯网(BayesNet)学习贝叶斯网(BayesNet)学习贝叶斯网(BayesNet)决策树的修剪决策树的修剪 前修剪:需要在建立树的过程中决定何时停止建立子树,这能避免建立某些子树所需的全部工作,而这些子树是将来要被舍弃的。 后修剪:后修剪过程中需要考虑两

文档评论(0)

1亿VIP精品文档

相关文档