- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
中山大学软件工程硕士论文:一种新的关联规则挖掘升行算法
规91|J产生规则,典型的决策树方法有关联规则回归树(CART)”1、C4.5”等,其典型应用为关联规则的挖掘。
遗传算法:是一种新的优化技术,基于生物进化概念没计了一系列的过程来达到优化的目的。这些过程有基冈组合、交叉、变异和自然选择等。遗
传算法易于并行计算,并且已经应用于关联规则和其他优化问题。
粗集理论:它是一种研究不确定性问题的数学工具,作为集合论的扩展,主要用于研究不完全和不完整信息描述的数据挖掘技术。可以用于关联规jl!IJ,进行特征归约和最小属性子集归约。
模糊理论”1:通过隶属度函数定义关联规则系统的“模糊”阈值或边界,从而可以产生人们易于理解的关联规则。
最近邻技术:通过K个与之相近的历史记录的组合来辨别新的记录,也称为K一最近邻技术。主要应用于关联规则、聚类和偏差分析等。
可视化:采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者,决策者可以通过可视化技术交互式地分析数据关系。
1.3关联规则
1.3.1关联规则的概念及定义
关联规则的挖掘(A删)“ 是数据挖掘的一项重要的任务。其目的就是从事务数据库、关系数据库中发现项目集或属性之间的相关性,关联关系,因果关系。如:“90%的顾客在购买A产品时,也会购买B产品”就是一条关联规则的例子。
关联规则可描述如下:D是一个事务数据库,其中每一个事务T由一些项目(Item)构成,并且都有一个唯一的标识(TID)。项目的集合简称项目集
(itemset),含有k个项目的项目集称为k一项目集。项目集x的支持度(support)是指在事务数据库D中包含项目集x的事务占整个事务的比例,记为sup(x)。可信度(confidence)是指在事务数据库D中,同时含项目集x和Y的事务与含项目集x的事务的比,即sup(XUY)/sup(X)。项目集中长度为k的子集称为k_子项目集。如果一个项目集不是任何其它项目集的子集则称此项目集为极大项目集。如果项目集的支持度大于用户指定的最小支持度(min—sup)则称此项目集为频繁项目集(frequent item set)或大项集(1arge item set)。关联规则可形式化表示为x=Y,它的含义是(XUY)的支持度sup(XUY)大于用户指定的最小支持度min_sup,且可信度conf大于用户指定的最小可信度min_conf。“””“
2
中山大学软件工程硕十论文:一种新的关联规则挖掘并行算法
关联规则挖掘就是在事务数据库D中找出满足用户指定的最小支持度 min sup和最小可信度min—conf的所有关联规则。挖掘任务可分为两个子问题:1.列出事务数据库中所有的大项集。2.大项集中产生所有大于最小可信度的关联规则。相对来说,第二个子问题比较容易,目前大多数研究主要集中于第一个子问题。
现实中,关联规则的例子很多。例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。这些数据中常常隐含形式类似“在购买电动玩具的顾客当中,有80%的人同时购买了电池”的关联规则。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把电动玩具和电池这样的商品摆放在一起,能够促进销售““1。
1.3.2关联规则的术语:
设I={il,i2, ,im)是一组物品集(一个商场的物品可能有上万种),
D是一组事务集(称之为事务数据库)。D中的每个事务T是一组物品,显然满足T∈I。称事务T支持物品集x,如果x∈T。关联规则是如下形式的一种蕴含:x —Y,其中x_ci,yc_I,且xnY=m。
有两个和关联规则有关的概念是支持度(support)和可信度(confidence)。根据[2]的定义,对于一个关联规则X==Y,.在交易集合D中,
Txy={Tl(XUY)CTNT∈.D},Tx={TlXCTNTED},支持度为s,如果lTxyl/lDl=s%:
可信度为c,如果ITxyl/l Txl=c%.
(1)称物品集X具有大小为s的支持度,如果D中有s%的事务支持物品集X:
(2)称关联规则x—Y在事务数据库n中具有大小为s的支持度,如果物品集xuY的支持度为s:
(3)称规则X—Y在事务数据库D中具有大小为c的可信度,如果D中支持物品集x的事务中有c%的事务同时也支持物品集Y。
如果不考虑关联规则的支持度和可信度,那么在事务数据库中存在海量的关联规则。事实上,人们一般只对满足一定的支持度和可信度的关联规则感兴趣。一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则。因此,为了发现出有意义的关联规则,需要给定两个阈值:最小支持度和最小可信度。前者即用户规定的关联规则必须满足的最小支持
原创力文档


文档评论(0)