- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于数据分割的几种关联规则采掘算法的探讨基于数据分割的
基于数据分割的几种关联规则采掘算法的探讨
基于数据分割的 几种关联规则采掘算法的探讨
研究生闰中敏 指导教师李庆忠教授
摘要
~,』
I随着计算机应用的不断发展,海量的数据资料积累下
\
来,以往的数据分析方法不能有效的从中发现有价值的信息, 为了解决这一问题,数据采掘发展了起来。通过数据采掘,我 们可以从十分繁杂的资料中发现有价值的信息或知识,达到为 决策服务的目的,因此数据采掘成为目前国际上数据库和信息 决策领域的最前沿研究方向之一,它同数据仓库和数据存储被 认为是当今三大数据库新技术。
数据采掘所获得的知识其表达形式是多种多样的,通常 可以是概念、规则、规律、模式、约束或可视化信息等,这些 知识可以直接辅助决策过程:或修正已有的知识体系:也可以 作为新的知识转存到知识存储机构中。
基于数据分割的几种关联规则采掘算法的探讨关联规则采掘是数据采掘中的一个重要课题。关联规则是
基于数据分割的几种关联规则采掘算法的探讨
关联规则采掘是数据采掘中的一个重要课题。关联规则是 表示数据库中对象之间某种关联关系的规则,它提供的信息可 用作商品销售目录设计,商场布置,针对性市场营销等。有关 关联规则采掘的算法中但较为权威的算法则是R.Agraval等提 出的Apriori算法,其基本思路是重复扫描数据库,每次生成 一定长度(k)的大项目集L,再根据得到的h产生长度为 k+l的项目集备选集C。下次对数据库进行扫描时仅对C。中 的项目集计数,以得到k,,在所有的大项目集求出后,再根 据公式计算得出符合条件的关联规则。可以看出,关联规则采 掘的过程是一个对数据库中数据的统计过程,其挑战性在于数 据量巨大,算法的效率是关键。围绕着怎样精减各选集的大小
和减少对数据库的扫描遍数,有许多新技术应用到关联规则采
、7
掘中,如哈希技术、数据分割、抽样等等。1
}
本文提出了三种基于数据分割的关联规则采掘算法: 算法PA、算法RP和算法IMA,这三种算法的思想不同,解决 问题的方式方法不同,它们分别适用于不同的采掘任务。由于 引入了数据分割的技术,使得算法可以在分割后得到的块上并 行执行,虽然在这种思路下的采掘算法需要协调不同的分割所 得出的中间结果,但由于并行的计算可以分别在不同的计算机 上进行,·这就使得每一分割的规模缩小,相对的可使用内存扩 大,对提高算法效率是有很大帮助的。
基于数据分割的几种关联规则采掘算法的探讨{算法PA是在Apriori算法基础上改进的一种算法。它虽
基于数据分割的几种关联规则采掘算法的探讨
{算法PA是在Apriori算法基础上改进的一种算法。它虽 然采纳了循环扫描数据库k次的思想,但由于引入了分割,可 以通过用每一分割上所有k~重项目集(既是某一分割上的大 项目集,并且也是全局大项目集,其长度为k)的集合来生成 此分割上的备选集,将每个分割上得到的备选集求并集,可以 证明所有的全局大项目集都包含在这个并集中。这样就使得 PA中得出的备选集既小于hpriori算法中的备选集,也小于 分割算法中的备选集,从而减少了扫描数据库过程中的计数基 数,即减少了计算过程中的内存占用;根据“如果x是某一分 割的重项目集,则x是这一分割上的局部大项目集”,就可以 对备选集中的项目集进行消减,去除那些在备选集中,但并不 是本分割的局部大项目集的项目集,这样做可以有效的缩减备 选集数目:算法的不足之处在于此算法对数据库的循环次数与 项目集长度有关,在算法执行前无法确定。因此算法PA适用 于项目集长度固定的采掘任务。
RP算法则采用了DIC算法的基本思想,对于不同长度的 项目集并行计数,即每次读取数据库的一部分(一个分割), 读第一部分时只对卜项目集计数,读第二部分对1、2一项目集 计数,顺次增多,这种思想缩减了对数据库的扫描遍数(可以 证明整个算法需要对数据库扫描(k+2m一2)/m遍,其中m为数 据库的分割数目),大大降低了数据I/0操作次数:由于2一 备选集的大小会大大影响采掘的性能,扫描过程中对各选集中 的每一个局部卜大项目集,利用交易号序列集合记录包含该
基于数据分割的几种关联规则采掘算法的探讨项目集的交易标号,这样就可以直接得到局部2一大项目集,
基于数据分割的几种关联规则采掘算法的探讨
项目集的交易标号,这样就可以直接得到局部2一大项目集, 这样,就减小了所有的2一备选集,虽然此处采用了分割算法 中交易号序列的思想,但只是在第一遍扫描过程中,并未造成 过重的内存负担;算法中也根据消减项目集的原则对得到的备 选集作了处理,但备选集中的项目集数目依然相对较大,这也 正是这个算法的不足之处。算法RP适用于数据库中的项目基 数相对较少,但数据库规模较大的采掘任务。
IIVL^_算法引
您可能关注的文档
- 基于深度学习的人脸识别分析-软件工程专业论文.docx
- 基于无线传感器网络的声源定位系统的设计与实现-电路与系统专业论文.docx
- 基于可见光波的无线通信系统的研究-通信与信息系统专业论文.docx
- 基于细胞色素P450复合膜修饰电极的电化学生物传感研究分析化学专业论文.docx
- 基于生长函数的植物生长建模研究计算机软件与理论专业论文.docx
- 基于神经网络的X公司太阳镜销售预测研究-会计专业论文.docx
- 基于无线入侵防御系统的中间人攻击检测功能的设计与实现-软件工程专业论文.docx
- 基于视频的人脸检测和跟踪算法分析-应用数学专业论文.docx
- 基于视频网站平台的企业品牌传播策略研究——以快速消费品行业为例-广告策划与品牌传播专业论文.docx
- 基于可穿戴设备的日常活动模式挖掘-软件工程专业论文.docx
文档评论(0)