- 1
- 0
- 约9.81万字
- 约 118页
- 2019-02-20 发布于上海
- 举报
⑧
⑧ 硕士学位论文
MASIER’S1IIESi,
摘 要
信息时代,数据库积累了海量数据,为从海量数据中发现有用信息,知识 发现成为目前紧迫的研究方向。关联规则挖掘是知识发现中应用最广泛,研究 最多的任务之一。
挖掘关联规则的首要任务则是找到频繁项目集。目前找出频繁项目集的很 多算法主要可以分为如下三类:一、以Aprori算法为代表的层次算法,如Mannila 的算法,Partition算法,DIC算法。这类算法的主要思想是直接对子集格进行 修剪,从尺寸为l的项目集开始,逐层向上对数据库进行遍历,直到找到最大 频繁项目集为止,它是目前应用最多的算法,但是对大密度和高关联度的数据 库进行采掘时,运行时间将以指数倍增加,运行效率不高,效果不好;二、通 过找出最大频繁项目集的方法来得到频繁项目集的算法,如Pincer-Search算 法.MaxClique算法和MaxMiner算法。这种算法在一定程度上节省了运行时间 和空间消耗,但是由于它的理论基础本身存在的缺陷,所以在生成关联规则时, 存在信息丢失的情况:三通过提取频繁封闭项目集来提取频繁项目集的算法, 如基于概念格(Galoris格)和J下则概念分析FCA的概念格挖掘算法。这类算 法的主要思想是先找到封闭的频繁项目集,然后从中得到全部的频繁项目集。 由于将发现频繁项目集的问题转化成为发现封闭概念的问题,该算法减少了空 问和时间消耗,尤其是在大密度高关联度的数据库情况下,因为封闭概念的数 目大大少于所有频繁项目集的数目,该算法的效果明显优于Apriori算法。同 时又能够在没有丢失信息的情况下将关联规则无冗余的挖掘出来。
本文通过对几个基于概念格的封闭频繁项目集挖掘算法的时间复杂度的 分析,总结出决定此类算法运行效率的因素,即数据库密度和关联度。在数据库 关联度小的时候,由于封闭频繁项目集的数目和频繁项目集总数相差不大,使
⑧篙姜慧。用概念格进行关联规则挖掘的效果反而不比Apriori类算法更好,某些情况甚
⑧篙姜慧。
用概念格进行关联规则挖掘的效果反而不比Apriori类算法更好,某些情况甚 至更差。据此提出了一种基于数据库关联度的判断选择算法RelationDesider. 能够在对数据库进行关联规则发现之前,通过对数据库的一次先验性遍历,得到 数据关联度情况,并根据该情况来选择合适的算法,当数据库关联度高于域值 时,采用基于概念格的关联规则挖掘算法,当关联度低于该域值时,采用 Apriori算法。最后,本文介绍了基于概念格的关联规则提取,并主要比较了 基于概念格的关联规则提取和一般方法提取关联规则的区别。
关键词:数据库KDD数据采掘关联规则概念格
n
AbstractIn
Abstract
In this information age,databases are piling up huge volume data.For getting useful information from this“data sea’,knowledge discovery in database(KDD) emerges as the most hot research field.The association rule·mining problem is one ofthe most studied and the most popular KDD tasks.
The chief task of association rules mining is tO find the frequent itemsets.The
algorithms for finding frequent itemsets can be sort as three groups:1.Levelwise algorithms.Apriori algorithm is a most typical algorithm.Other this kind of algorithms is Marmila,Partion,DIC,and SO on.The main idea of this kind of algorithms is to prune the sub-itemsets lattice.It is started from the 1-size itemsets,
passing the database level by level,and stopped when the largest frequent itemsets were found.It is a most popular method to find frequent itemsets.However’the perform t
您可能关注的文档
- 基于服务主导逻辑的IT与业务流程匹配研究-管理科学与工程专业论文.docx
- 基于概率统计的遥感图像变化检测方法研究-模式识别与智能系统专业论文.docx
- 基于概率统计模型的说话人确认的研究-信号与信息处理专业论文.docx
- 基于服务总线的模具企业信息集成系统-材料加工工程专业论文.docx
- 基于概率图模型的代码库数据挖掘-计算机科学与技术专业论文.docx
- 基于概率图模型的动作识别-通信与信息系统专业论文.docx
- 基于服务组合的民航运行服务研究计算机科学与技术专业论文.docx
- 基于概率图模型的服务语义链网络研究-基础心理学专业论文.docx
- 基于概率图模型的文本对象情感分析-模式识别与智能系统专业论文.docx
- 基于服役性能的高速铣削淬硬钢表面质量研究-机械制造及其自动化专业论文.docx
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
原创力文档

文档评论(0)