- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
天行健,君子以自强不息。地势坤,君子以厚德载物。——《周易》
页眉内容
深圳大学研究生课程论文
题目对关联分析方法的学习报告成绩
专业软件工程(春)课程名称、代码数据库与数据挖掘3021
年级2013姓名刘璐
学号008时间2014年11月
任课教师傅向华
1关联分析方法及其应用综述
1.1关联分析概念
关联分析是一种简单、实用的分析技术,就是发现存在于大量数据集中的关
联性或相关性,从而描述了一个事物中某些属性同时出现的规律和模式。
关联分析是从大量数据中发现项集之间有趣的关联和相关联系。关联分析的
一个典型例子是购物篮分析。该过程通过发现顾客放人其购物篮中的不同商品之
间的联系,分析顾客的购买习惯。通过了解哪些商品频繁地被顾客同时购买,这
种关联的发现可以帮助零售商制定营销策略。其他的应用还包括价目表设计、商
品促销、商品的排放和基于购买模式的顾客划分。
可从数据库中关联分析出形如“由于某些事件的发生而引起另外一些事件
的发生”之类的规则。如“67%的顾客在购买啤酒的同时也会购买尿布”,因此
通过合理的啤酒和尿布的货架摆放或捆绑销售可提高超市的服务质量和效益。又
如“‘C语言’课程优秀的同学,在学习‘数据结构’时为优秀的可能性达
88%”,那么就可以通过强化“语言”C的学习来提高教学效果。
世间万物的事情发生多多少少会有一些关联。一件事情的发生,很可能是也
会引起另外一件事情的发生。或者说,这两件事情很多时候很大程度上会一起发
生的。那么人们通过发现这个关联的规则,可以由一件事情的发生来,来推测另
外一件事情的发生,从而更好地了解和掌握事物的发展,动向等等。这就是数据
挖掘中,寻找关联规则的基本意义。数据挖掘技术中的关联规则挖掘是通过
计算机自动从一大对真实数据中发现这样的关联规则出来。对于计算机而言,
它需要知道所有的事情发生情况,并且把相应的事情合并成一个事务,通过对各
个事务的扫描,来确定事情的关联规则。
1.2关联分析算法简介
Apriori算法[1]是一种最有影响的挖掘布尔关联规则频繁项集的算法。其
天行健,君子以自强不息。地势坤,君子以厚德载物。——《周易》
页眉内容
核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、
布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称
频集。
该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和
预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小
支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含
集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的
定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才
被留下来。为了生成所有频集,使用了递归的方法。
(1)L1=find_frequent_1-itemsets(D);
(2)for(k=2;Lk-1≠Φ;k++){
文档评论(0)