- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于FP-Growth算法改进的多层次关联规则挖掘算法
摘要:针对FP算法的缺陷,将OLAP技术和Apriori关联规则相结合,提出了一种针对FP算法的改进的多层次关联规则数据挖掘算法,在分析了关联规则数据挖掘结构的基础上,给出了该算法的思想与执行步骤,对于关联规则数据挖掘的研究具有一定的理论意义。
关键词:算法改进;多层次;关联规则;数据挖掘
中图分类号:TP312文献标识码:A文章编号:1009-3044(34)-1994-03
Multi-level Association Rules with Data Mining Based on FP Arithmetic Improvement
WANG Juan
(Cizhou College, Computer Center, Cizhou 247000, China)
Abstract: Aiming at the problems of FP arithmetic, the OLAP technology was combined with Apriori association rules, and the new arithmetic that aimed the problems of FP arithmetic was given out, which was the FP arithmetic improvement, and on the basis of analyzing the structure of data rules with data mining, the new arithmetic’s theory and its implementation steps were also developed. All of these work was significative for researching data rules with data mining.
Key words: arithmetic improvement; multi-level; association rules; data mining
1 引言
众所周知,在实际进行空间数据库和属性数据库设计时,为优化设计,将空间数据库按照地物的类型分成不同的数据层,如道路层,建筑物层等;对属性数据库常常依据范式理论,将其分解为若干通过关键字、外关键字或其他属性相互关联的若干张表的有机组合,这导致了许多空间数据被分别存放在不同层中,而其属性被分别放在不同的表中。挖掘这些表中蕴藏的知识和信息,显然有重要的理论和实践意义。在许多应用场合,空间关联规则的挖掘要求在多个数据层和表中进行。
对于关联规则算法,传统经典的关联规则Apriori算法有许多不同的改进方法。可能产生大量的候选集以及可能需要重复扫描数据库,是Apriori算法的两大缺点。针对Apriori 算法的固有缺陷,国外有学者提出了不产生候选挖掘频繁项集的方法―FP 算法。FP对不同长度的规则都有很好的适应性,同时在效率上较Apriori算法有巨大的提高。许多应用,特别是电子商务的应用中,在最低层或原始层的数据项之间,可能很难找出强关联规则和有趣的购买模式。在多个概念层的项之间找有趣的关联比仅在原始层数据之间更容易,在较高的概念层发现的强关联规则可能提供普遍意义的知识。因此,我们需要挖掘多层次的关联规则。
2 基本理论
笔者研究了一种有效的多层次关联规则挖掘方法,这种方法把FP算法、OLAP技术和Apriori关联规则挖掘算法结合起来。由于在方法中要涉及到数据仓库、OLAP、关联规则挖掘等概念,所以下面先对这些概念进行简要的介绍。
数据仓库是面向主题的、稳定的、完整的、时变性的数据集合,数据仓库为决策支持提供支持。为了进行有效的数据处理,数据仓库中的一部分必须预先计算,笔者把数据仓库中预先计算的那部分称为数据立方体。
OLAP是由数据仓库提供的,用于以多层次,多维的形式来操作数据。OLAP的基本操作包括:向上综合,向下考察,局部分析,旋转等。因此,联机分析处理的过程就是根据数据分析的要求,从原始数据中构造各种数据立方体,并对立方体执行有关的操作,把结果返回给用户的过程。
关联规则是数据间依赖关系的描述,是知识发现研究的重要内容。信息系统S 定义为四元组:(U,A,V,f),U是对象集合,A={a1,a2,…,ap}是属性集合,V=V1∪V2…∪Vp是属性的值域集合,f:U×A→V 定义对象的属性值。通常,属性是可分类的,数据的分类层次(hierarchies) 表示了自底向上的概括(generalization) 和自顶向
您可能关注的文档
- 基于ASP.NET的高校教务管理信息系统的设计与实现.doc
- 基于ASP.NET的高校科研信息管理系统实现.doc
- 基于ASP.NET的高校实验信息统计模块的设计和实现.doc
- 基于ASP.NET的两种权限管理方法的比较.doc
- 基于ASP.NET的辅助教学系统的设计与实现.doc
- 基于ASP.NET的水禽种质资源信息系统的建设.doc
- 基于ASP.NET的网络数据传输.doc
- 基于ASP.NET的学生成绩管理系统设计与实现.doc
- 基于ASP.NET的学生作业管理系统架构与设计.doc
- 基于ASP.NET的智能小区物业管理系统的设计.doc
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)