一种基于时态约束的加权关联规则挖掘算法.pdfVIP

一种基于时态约束的加权关联规则挖掘算法.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一 彳嚣 一 种基于时态约束的加权关联规则挖掘算法 赵北松 ,张争龙 ,李星毅 (1深圳市公安局交通警察支队 交通科技处 广东 深圳 518000; 2江苏大学 计算机科学与通信工程学院 江苏 镇江 212013) 【摘 要】:时态关联规则是指带有时态约束的关联规则,针对现有的大多数时态关联规则挖掘算 法并没有考虑数据项的不同重要性,提出了一种新的加权时态关联规则挖掘算法。算法以项 目的生命 周期作为时间特征,并且允许用户设定不同的项 目权重。算法采用了树和矩阵的数据存储结构,挖掘过 程中只需扫描一次数据库,同时利用向量之间的交集操作加快了加权支持度的计算速度。仿真实验表 明,优化算法具有 良好的挖掘效率。 【关键词】:数据挖掘;时态数据库;生命周期;时态关联规则 1引言 数据库来计算其加权支持度,且算法是基于Apriori算 现实世界数据库中我们可以发现各种各样的时 法思想设计而成的,其复杂性与Apriori算法的复杂性 态数据 ,例如超市交易记录中的交易时间,病历中的 相似 。 检查和诊断时间,天气数据 日志文件 中的标记?时问 本文对文献 3『】中的算法进行了改进,同时改进了 等。时态数据库的出现必然要求在知识发现过程中考 文献[1,2]的不合理之处,提出一种新算法来挖掘加权 虑时间因素,附加上某种时态特征的规则能更好地描 时态关联规则,算法既考虑 了项 目的权重,又考虑 了 述实际情况,这样的规则就称为时态关联规则,它能 交易的权重,同时还体现了数据的时态性。算法采用 有效挖掘出一些全局支持度较低 ,但在某些时段却有 了树和矩阵的数据存储结构,挖掘过程中只需扫描一 较高支持度和信任度的规则,如中秋节的月饼、圣诞 次数据库,且该算法利用向量之间的交集计算加权支 节礼品等容易在传统关联规则挖掘中被忽略但对用 持度,通过对上三角矩阵按支持度计数升序排序,使 户有重要价值的规则。目前国内外研究的主要 内容 得数据尽可能均匀细化,降低了树的高度,减少了遍 有:序列模式挖掘,周期关联规则挖掘,日历关联规则 历候选项集树生成的候选项集数量,提高了时态关联 挖掘等 。 规则的挖掘效率。 文献 【1]中提出了生命周期的概念 ,其主要思想是 2相关概念 数据库中每一项 x都有一个生命周期,项 目x的支 为I中每个项 目ii赋以权值wj,其中0 Wj≤1,i= 持度等于x 的生命周期 内包含x的事务数与该段时 f1,2,…,n)。当项 目具有权重后,数据项所属的交易也 间内总的事务数的比值。但该算法直接利用 Apriori 具有了相应的权重。 算法中频繁 fk一11项集进行连接生成候选k项集,这 定义 1交易记录D的权重记为W(Di): 种做法存在不合理之处[31。 1 、 W (Di)= wj (1) 文献[2】在考虑关联规则成立的时间区域的同时, lIJiIjE-D. 对交易事务进行垂直加权,使规则的发现体现了一种 其中,jDjI表示交易记录Dj中包含的项目个数。 时间趋势,但是该文提出的算法并没有对项 目进行加 定义 2设项集XCI,x在D内从最初出现到最 权以区分项 目的不同重要性,而且该算法存在和文献 后出现的时问区域为[T,T2】(TT2),称[T,T2]为项集x [1冲 的算法同样的不合理性。 的生命周期。Ix[T,T2]I表示时间[T,T2]内包含项集x 文献[3】提出的算法该进了以上算法的不合理之 的事务个数,ID[T。,rr2]I表示D在时间[T,,T21内的事务 处,既考虑

文档评论(0)

fengyu11 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档