- 19
- 0
- 约9.85千字
- 约 15页
- 2016-10-22 发布于湖北
- 举报
Apriori算法一、Apriori算法简介:? Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。 Apriori(先验的,推测的)算法应用广泛,可用于消费市场价格分析,猜测顾客的消费习惯;网络安全领域中的入侵检测技术;可用在用于高校管理中,根据挖掘规则可以有效地辅助学校管理部门有针对性的开展贫困助学工作;也可用在移动通信领域中,指导运营商的业务运营和辅助业务提供商的决策制定。
二、挖掘步骤:
1.
2.依据置信度产生关联规则(强度)
三、基本概念
对于A-B
支持度:P(A?B),既有A又有B的概率
②置信度:
P(B|A)A发生的事件中同时发生B的概率?p(AB)/P(A)?????例如购物篮分析:牛奶??面包
例子:[3%,置信度:40%]
支持度3%3%顾客同时购买牛奶和面包
置信度40%40%也购买面包
③如果事件Ak个元素,那么称这个事件A为k项集事件A满足最小支持度阈值的事件称为频繁k项集。
④同时满足最小支持度阈值和最小置信度阈值的规则称为强规则
四、实现步骤
????AprioriApriori使用一种称作逐层搜索的迭代方法,“K-1项集”用于搜索“K项集”。
首先,找出频繁“1L1。L1用于找频繁“2项集”的集合L2,而L2用于找L3。如此下去,直到不能找到“K项集”。找每个Lk都需要一次数据库扫描。
核心思想是:连接步和剪枝步。连接步是自连接,原则是保证前k-2,并按照字典顺序连接。剪枝步,是使任一频繁项集的所有非空子集也必须是频繁的。反之,如果某
个候选的非空子集不是频繁的,那么该候选肯定不是频繁的,从而可以将其从CK
简单的讲,1发现频繁项集,过程为(12)计数(3)比较(4)产生频繁项集(5)连接、剪枝,产生候选项集???重复步骤(1~(5)直到不能发现更大的频集
2、产生关联规则,过程为:根据前面提到的置信度的定义,关联规则的产生如下:
(1L,产生L的所有非空子集;
(2L的每个非空子集S,如果
????????????????P(L)/P(S)≧min_conf
则输出规则“SL-S”
注:L-SL中除去S子集的项集
KNN最邻近规则KNN最邻近规则,主要应用领域是对未知事物的识别,即判断未知事物属于哪一类,判断思想是,基于欧几里得定理,判断未知事物的特征和哪一类已知事物的的特征最接近;
K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。 KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成正比(组合函数)。 该算法在分类时有个主要的不足是,当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数。 该算法只计算“最近的”邻居样本,某一类的样本数量很大,那么或者这类样本并不接近目标样本,或者这类样本很靠近目标样本。无论怎样,数量并不能影响运行结果。可以采用权值的方法(和该样本距离小的邻居权值大)来改进。该方法的另一个不足之处是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离,才能求得它的K个最近邻点。目前常用的解决方法是事先对已知样本点进行剪辑,事先去除对分类作用不大的样本。该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域采用这种算法比较容易产生误分。
K-NN可以说是一种最直接的用来分类未知数据的方法。基本通过下面这张图跟文字说明就可以明白K-NN是干什么的
简单来说,K-NN可以看成:有那么一堆你已经知道分类的数据,然后当一个新数据进入的时候,就开始跟训练数据里的每个点求距离,然后挑离这个训练数据最近的K个点看看这几个点属于什么类型,然后用少数服从多数的原则,给新数据归类。
?
算法步骤:
step.1---初始化距离为最大值
step.2---
您可能关注的文档
- 四年级科学下册《油菜花开了2》课件之三(教科版)解析.ppt
- 四年级科学下册复习_解析.ppt
- 数据库第4章关系模型解析.ppt
- 四年级科学下册各种各样的花1课件首师大版解析.ppt
- 数据库第5章解析.ppt
- 数据库复习提纲-2014解析.doc
- 数据库复习题1解析.doc
- 数据库复习题及部分答案解析.doc
- 数据库复习题库答案期末解析.doc
- 四年级科学下册油菜花开了3课件教科版解析.ppt
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
最近下载
- Young Sheldon《小谢尔顿》第七季第六集完整中英文对照剧本.docx VIP
- 量化经典高收益量化策略.ppt VIP
- Young Sheldon《小谢尔顿》第七季第五集完整中英文对照剧本.docx VIP
- Young Sheldon《小谢尔顿》第七季第四集完整中英文对照剧本.docx VIP
- Young Sheldon《小谢尔顿》第七季第三集完整中英文对照剧本.docx VIP
- 连锁餐饮企业顾客满意度研究—以广州市点都德为例.doc VIP
- 高中化学必修第二册第六章 化学反应与能量.pdf VIP
- Young Sheldon《小谢尔顿》第七季第二集完整中英文对照剧本.docx VIP
- 合理用药指南.pptx VIP
- Young Sheldon《小谢尔顿》第七季第一集完整中英文对照剧本.docx VIP
原创力文档

文档评论(0)