网站大量收购独家精品文档,联系QQ:2885784924

多维数据流最大频集挖掘模型和算法.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多维数据流最大频集挖掘模型和算法

第36卷第6期 北京工业大学学报 V01.36No.6 UNIVERSITY 2010年6月 JOURNALOFBEIJING OFTECHNOLOGY Jun.2010 多维数据流最大频集挖掘模型和算法 毛国君,孙晓希,宗东军 (北京工业大学计算机学院,北京 100124) 摘要:为了挖掘到有价值的信息,需要挖掘多维数据流上的频繁项目集,因此引入多维项目和多维项目集的 概念表示多维数据流上的项目.设计了一种紧凑、压缩的数据结构MaxFP—Tree用于维护多维项目集,并在 MaxFP.Tree的基础上设计了挖掘多维数据流上最大频集的增量式更新算法.实验结果表明,设计的挖掘多维数 据流中最大频集的模型和算法是高效的. 关键词:数据流;数据挖掘;最大项目集;最大频繁多维项目 中图分类号:TP391 文献标志码:A 文章编号:0254—0037(2010)06—0820—08 挖掘频繁项集¨刮是数据挖掘领域的一个研究热点.在关联规则、序列模式挖掘等研究领域,挖掘频 繁项集是最基础和最关键的步骤.数据流(datastream)是指无限的、持续而快速到达的数据序列.尽管挖 掘频繁项集仍然是数据流中知识发现的一个基础性工作,但是在这类大容量的动态变化的数据流中进行 频繁项集挖掘出现了新的具有挑战性的问题,因此近年来得到广泛关注∽….Manku等¨1给出了挖掘整个 历史数据流上频繁项集的算法Lossy 于并的操作. 这些算法大多数只能挖掘单维频繁项目集,而现实中的数据大都有多个属性(维度)¨¨,如超市的交 易记录加上购买人的个人信息以及常见的关系数据库中的数据,因此需要再挖掘多个维度上的数据,比挖 掘单维数据流更有挑战性.在数据库中挖掘多维关联规则比挖掘单维布尔关联规则更有应用价值.Xu 等¨21在Apriori的基础上提出了一种挖掘多维关联规则的算法,但仍需要多遍扫描数据库.钟勇等¨列设 计了一种基于多维集的关联模式挖掘算法,利用多维关联规则限制特性缩减数据集,对Apriori算法进行 了改进,但仍需要多遍扫描数据集产生候选.而挖掘多维数据流上的频繁项目集比挖掘普通的单维数据 流在速度和空间上更有挑战性. 1 基本定义 针对需要挖掘的数据流的多维特点给出一些基本定义. 定义1(多维项目)给定一个数据集D,对应维度上的属性集A={A。,A:,…,A。},m≥1为维数,每 上都取具体值,用幸表示任意维度上的任意值.当对某些维度取值不关心时,用奉来表示此维度上的 取值. 网络访问数据流是典型的多维数据流,表1所示为KDD99012]中的网络访问数据片段.数据由5个维 收稿日期:2008-05-08. 基金项目:国家自然科学基金资助项目. 作者简介:毛国君(1966一),男,内蒙古赤峰人,教授 第6期 毛国君,等i多维数据流最大频集挖掘模型和算法 应用中不需要关心多维项目某些维度上的取值,如表1中的数据表明用户访问f岫的服务与源IP无关,因 个问题,作者引入抽象和具体的概念. 表1 KDD99数据片段 Table1 KDD99 data fragment 定义2(抽象和具体)给定一个数据集D,对应的维度属性集A={A。,A:,…,A。}和相应的值域集 £:i E 5巾rs和丁的抽象操作(用符号n。。。表示抽象操作)为多维项目,=(叱I。,口2…,吃),其中 i ^当s:。=ti 口。=l 1 I书 当5:。≠t‘k或s:i和f:。之一为宰, 自身的一个抽象,也是其自身的一个具体. 0),则R=Rl n 掌,0),因此R为R。和尺2的抽

文档评论(0)

magui + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8140007116000003

1亿VIP精品文档

相关文档