基于SQL的关联规则挖掘算法的研究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于SQL的关联规则挖掘算法的研究.pdf

基于SQL的关联规则挖掘算法的研究 颜雪松 蔡之华 张留学 (中国地质大学信息工程学院430074) 摘要随着数据库规模的增长以及发现隐藏在数据库中的规则的重要性使得数据挖掘越来 越受到关注.现今的数据库系统基本上是以关系数据库为主,这样用标准的SQL查 询实现数据挖掘就很轻松了.在本文中我们介绍了一种关联规则的挖掘算法一SETM 以及该算法的SQL实现.在文章的最后,我们对文章进行了总结并对今后的发展提 出了自己的看法. 关键词数据挖掘查询优化SQL关系数据库. 1引言 近年来,随着商业、政府和科学数据库的急剧增长和存储设备的不断升级,产生了大量 的数据。数据挖掘(Data mining)技术的提出为我们有效识别出存在于数据库中的有效的、 新颖的、具有潜在效用的并最终可理解的模式提供了可靠的科学方法,已成为当今国际人工 智能和数据库等领域新兴的研究课题。 数据挖掘的一个主要问题是关联规则的挖掘,从数据中发现有用的规则已经引起了研究 者和商业团体的关注,特别是近年来从数据库中发现了大量的以前未知的、有用的信息以后。 发现关联规则,也就是在一系列对象中发现暗示一定关联关系的规则,比如“在一起出现” 或“一个可以暗示另一个”[2]。这种挖掘对CPU的处理能力的要求非常高,这样在数据挖掘 的领域就发展起来了许多有效的挖掘方法[1][2],因此,这就意味着从数据库中分离出了许 多专门的系统。近来在运用关系数据库系统进行数据挖掘已经取得了一些成就,主要是关系 数据库系统提供了和其它系统的无缝综合和高度的便携性,而且关系数据库提供了一种面向 集合的数据库语言SQL。数据挖掘的方法也从直接使用SQL开始有所扩展了,例如[5]中提到 的用户定义函数(UDF)。 本文剩余部分的结构如下:第二节简单介绍了SQL语言;第三节介绍了关联规则的基本 概念,然后列举了挖掘关联规则的SETM算法,并用SQL实现了该算法;文章的最后是对本 文的总结及对将来工作的展望。 2SOL简介 Jose的IBM实验室于70年代后期开发出来的。它的 SQL语言是由位于加利福尼亚San Query 初始化含义是结构化查询语言(StructuredLanguage),而SQL语言本身称之为“seguel”。 database management system,今天仍能买到各种平台与环境下的DB2产品)。实际上,SQL语 1008 言不同于COBOL和C等同时期出现的过程化语言(或称第三代语言3GLS)。它是一种非过 程化的语言,它使得建立关系数据库管理系统(RDBMS)成为可能。 SQL是操作和检索关系数据库的事实上的标准语言。SQL使编程者和数据库管理员可以 做以下事情: ·修改数据库的结构 ·改变系统的安全性设置 ·增加用户访问数据库或表的许可 ·查询数据库的信息 ·更新数据库的内容 SQL中最常用的语句是SELECT语句,SELECT语句从数据库中检索数据,并将结果提 供给用户。除了SELECT语句外,SQL还提供了创建新数据库、表、字段和索引的语句,以 及插入和删除记录的语句。 3基于SQL的关联规则挖掘算法 (1)基本概念 关联规则的挖掘问题可形式化描述为如下内容: 设I’{il,i2,...,im)是所有项目的集合。D是所有事务的集合(即数据库),每个事务T是一 些项目的集合,T包含在I中,每个事务可以用唯一的标识符TID来标识。设x为某些项目 的蕴涵式,这里Xd中,Yd中,并且Xr、y=①。事务集D中的规则X-Y是由支持度 的频度。数据项集X的支持度S(x)是D中包含X的事务数量与D的总事务数量之比。规 Y的事务所占比例为s%,表示同时包含X和Y 则X冷Y的支持度s定义为:在D中包含Xu 的事务数量与D的总事务数量之比;规则x

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档