- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第1章数据挖掘
数据库产品中来,使得大型数据库的功能向智能化的方向迈进了重要的一步。
与国外相比,国内研究起步较晚,1993年国家自然科学基金首次支持国内
研究机构对该领域的研究。目前,国内从事数据挖掘研究的人员主要在大学,部分
在研究所或公司。研究领域集中在学习算法的研究、数据挖掘的实际应用以及有
关数据挖掘理论方面的研究。
1.4 数据挖掘的发展趋势
当前,鉴于数据、数据挖掘任务和数据挖掘方法的多样性,给数据挖掘方法提
出了许多挑战性的课题,这些课题包括:
1.可伸缩的算法。
2.交互式发现。
3.与数据库系统、数据仓库系统干llWeb数据库系统的集成。
4.数据挖掘语言的标准化。
5.可视化数据挖掘。
6.复杂数据类型挖掘。
7.web挖掘、隐私保护和信息安全等。
第2章关联规则挖掘
关联规则问题是数据挖掘领域十分活跃的热点,也是数据挖掘中最重要的一
个分支,已经引起了数据库、人工智能、统计学、信息检索、可视化等诸多研究
领域的专家和研究机构的广泛重视,并取得了很多重要成果。
关联规则挖掘实际上是寻找给定数据集中项之间的有趣联系。从大量商务事
务记录中发现有趣的关联关系,可以有助于许多商务决策的制定。关联规则挖掘
的一个典型例子是购物篮分析。该过程通过发现顾客购买的商品之间的关系,分
析顾客的购买习惯,从而做出相应的销售策略。
关联规则是在1993年由IBM公司的Agrawal提出,以后很多人对它进行大量研究,大致涉及三个方面:~是经典频繁项集挖掘的高性能算法研究,包括对算法的改进,以及探索新的挖掘方法;二是拓展频繁项集的概念,提出相应的挖掘算法:三是拓展关联规则概念及应用范围,包括规则的价值评估、新的关联规则类型等。
2.1 关联规则挖掘的基本概念
2.1.1项目集的概念
定义1关联规则挖掘的数据集记做D(一般是事务数据库),D=“,t2,.,tn},其中tk={it,i2 fml(^=1 n)叫做事务或记录,ip(p=l m)N做项目(Item)。每一个事务都有一个唯一的标识符,称为TID。
定义2设仁{f。,f2 iq}7黾D中全体项目的集合。,的任何子集x称为D中的
项目集(Itemset)。若凶斯,即项目集中包含项目的个数或项目集的长度为k,则
称项目集x为k项目集(k-itemset)。
定义3设氏和x分别为D中的事务和项目集,如果事务tk包含盖中的所
有项目,即ⅣCfk,称事务rk包含项目集x,或称“支持石。数掘集D中包含项
目集x的事务数称为项目集x的计数或支持数,记做s㈣。项目集x的支持度记
做support(X),它是x在数据库中的概率P∞,计算公式为:
中山大学硕卜学位论文 第2章关联规则挖掘
s啪on∞。篱x100% 公式2-1
其中lDI是事务集D的事务总数。
定义4若support(X)不小于用户指定的最小支持度min.sup,则称项目集x
为频繁项集,否则为非频繁项集。频繁t项集的集合通常记做h。
定义5设L为频繁项集集合,我们定义最大频繁项集集合肘为:
M={,∈工I不存在』’∈L且,C,’)
即最大频繁项集是一个频繁项集P,使得P的任何真超集都不是频繁的。
定义6项集工是频繁闭项集如果不存在项集刀同时满足如下两个条件:
(1)x CX’(2)supportC的=suppon(r),这样的频繁项集x叫做频繁闭项集。
2.1.2关联规则挖掘的概念
定义7彳、y为项目集,且Jny为空,蕴含式x—y称为关联规则,x、y分
别被称为关联规则x—Y的前提和结论。项目集Xu Y的支持度称为关联规则的
支持度,用于衡量规则在数据库中的统计重要性,记做suppon(x=爿):
support口j功=support(XU y)=P(XU y) 公式2—2
关联规则x—Y的置信度是D中包含硼拘事务同时也包含Y的百分比,即条件概率
P(y脚,用于衡量规则的可信程度,记做confidenceⅨ卅):
confidence晖j y)=P(焖=—suppor—t(XUY)×100%
公式2—3
support(X)
通常由用户指定最小支持度min—sup和最小置信度min~conf,只有符合最小支
持度和最小置信度的规则才是用户感兴趣的关联规则,这种规则称为强规则。
2.2 关联规则挖掘问题分解
关联规则挖掘问题的解决分为两步:
·找出所有的频繁项集。这些项集必须满足最小支持度。
● 由频繁项集产生强关联规则。规则必须满足最小支持度和最小置信度。
中山大学硕士学位论文 第2章关鞋规则挖掘
这两步中,第一步最关键,是关联规则挖掘问题的核心,它的性能决定若关
联规则挖掘的整体性能。因此大部分的关联规则研究将重点放在此步上,产生了
很多的频繁项集挖掘算法。
2.3 关联规则挖掘的研究进展
1.多层关联规则挖掘。Agra
您可能关注的文档
- 论中西部旅游资源开发地资本市场战略.docx
- 新电信建设项目投资控制方法研究.docx
- (2+1)维非线性演化方程的新分离变量解.docx
- 椭圆偏振光谱和磁光谱中新地物理方法和器件研究.docx
- 新全球化条件下地文化关系.docx
- 求解矩阵特征值问题地一种新算法——非线性算法.docx
- β_,2_-肾上腺素受体激动剂的研究--苯乙醇胺类新化合物的合成.docx
- 几个新地马铃薯二倍体杂种地评价与其在4X-2X育种中地应用.docx
- 一种新的混沌序列加密算法.docx
- 划分问题新拟多项式算法与背包问题新求解方法研究.docx
- 2025至2030中国移动治疗台行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030链激酶行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030爆炸物探测扫描仪行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030四川省智能制造行业细分市场及应用领域与趋势展望研究报告.docx
- 2026届高三二轮复习试题政治大单元突破练1生产资料所有制与分配制度含解析.docx
- 2026届高三二轮复习试题政治大单元突破练16哲学基本思想与辩证唯物论含解析.docx
- 2026届高三二轮复习试题政治大单元突破练2社会主义市场经济体制含解析.docx
- 浙江省衢州市五校联盟2025-2026学年高二上学期期中联考技术试题-高中信息技术含解析.docx
- 浙江省金丽衢十二校2026届高三上学期11月联考政治试题含解析.docx
- 2026届高三二轮复习试题政治大单元突破练7领导力量:中国共产党的领导含解析.docx
最近下载
- 对外汉语 天气 太冷了.ppt
- 2025年咨询工程师信息化系统建设与软件开发咨询服务采购专题试卷及解析.pdf VIP
- 装载机液压系统设计装载机液压系统设计.doc VIP
- 第八单元习作: 那次经历真难忘 课件 统编版语文三年级上册.pptx
- 2025年演出经纪人演出经纪人的权利与义务在艺人经纪中的具体实践专题试卷及解析.pdf VIP
- 2025年互联网营销师互联网营销行政处罚案例专题试卷及解析.pdf VIP
- 2025年AWS认证自动化更新CloudFrontWAF规则专题试卷及解析.pdf VIP
- 2007江铃全顺欧iii发动机维修手册.pdf
- 2025年演出经纪人演出项目媒体合作与公关专题试卷及解析.pdf VIP
- 两家公司系属同一家公司证明.doc VIP
原创力文档


文档评论(0)