大型数据库中模糊关联规则的挖掘.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第35卷专辑 兰州大学学报(自然科学版) Vol35Supp. !塑±!墨 !!!竺!!堕生磐些型型!生!竖!壁!型!!!璺!兰!生!堡! 地墨:!!!!: 文章编号:8455—2059(1999)0293—06 ∥ 、查型墼撮鹰中模糊关联规则的挖掘 杜鹚1,陆建江2,宋自林1 (1.通信T程学院计算机系:2通信工程学院捧础系,江棼南京210016) 摘要:数据挖掘主要是用米找出隐藏在数据库当中那些有用的而未被发现的知识本文引入 模糊关联规则的概念,并给山确定这些规则是否有意义的计算方法. 关键词:数据挖掘;关联规则 1问题的提出 白文献…提山有关关联规则的挖掘方法及相应算法以来,这方面的研究已经扩展到关 丁.数量属性的挖掘上来,并提出了一些算法和规则的维护方法12,”.但在传统的挖掘数量属性 关联规则的过程中,存在着以F问题: 由于数据属性的定义域是连续的,通常的方法是将其划分成多个区间,将数量属性关 联规则问题转换成布尔型芙联规则问题进行讨论.一种方法是将属性的定义域划分成离散 的、互不重叠的区间,属性上的每一个元素分别映射到各自的区间上.但这种明显的划分会 将区间附近一些潜在元素排斥在外,而导致一些有意义的区间可能被忽略掉.如图1将属性 “年龄”划分为五个区间,由于边界的硬划分,可能使得每个区间的支持率都小于_Hj户给 定的最小支持率;但如果将十八九岁、三十一二岁的记录也考虑进来的话,20至40这个区 间就可能变得有意义【a.另一种方法是将属性的论域划分成重叠的区域(如图2),这时处丁.边 界附近的元素就有可能同时处于两个区间.由于这些元素同时对两个区间都作贡献,可能造 图I 幽2 Figure Figurt:2 成过分强调落入这些交义区间的元素的作用,从而导致某些区间的意义也被过分地强调了口I. 2问题的解决 针对上面的硬划分出现的问题,一种有效的软化方法是将属性的定义域模糊化,即将 定义域划分成多个模糊集.由于模糊集可以在集合元素和非集合元素之间提供非常平滑的变 收稿日期:1999.03.15. 作者简介:杜鹤(1971.),男.博l:研究生. 294 兰州大擘学报(自然科学版) 第35卷 迁,这样就可以有敛地软化边界再以年龄属性为倒,其上的一个模糊集“20至40左右” 就可以由F图表示. 从图中可以看到,当年龄取倌在[20.40l之间时,其隶属度为1,在此区问之外的年龄值 的隶属度则在f0,11之间取值,离此Ⅸ问越远,隶属度越小.通过这种方法,既可以充分考虑 剑20岁到40岁这一医司其边界附近一』j元素滞住的意义,同时,由『.这些边界附近元素 【目 3 Fig…3 的隶属度小丁二区间内元系的隶属度,…此4;会造成过分强调这些元素的现象,当然也就不 会过分强调某些与其有火的天联规则 3概念定j辽 3 1模糊关联规则 定义1 将属性定义域的划分模制化,爿。在Ⅱ二基础J:产生的关联规则称为模糊关联规则 改产{,,,,”…t。j是一个数据库,t,表不T的旃i个元组或第i个记录,,={i,,i”.,‘}表示 属性集.“棚表示属性it在第,个记录上的值.下表是一个由数量属性构成的样本数据库, 它记录了南京市98年4月1号剑10号上午8点的气象数据 表1样本数据库1 TabIe 1 SampIe Database1 此表中卜‰,。,,,,,以f。.t,.k,,‰}.卢{云量,云高,风向风速,有效能见度,气温,相对温度,海 平面气},fⅡ风速]表示第四条记录中属性“风速”的值,通过检索可知f』风速】=3设属性it 的定义域可划分为多个模糊集:^={,二嚣…,爿),其中,?表示凡中的第』个模糊集

文档评论(0)

wuhuaiyu002 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档