一种采用函数迭代运算的数据流挖掘方法.pdf

一种采用函数迭代运算的数据流挖掘方法.pdf

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种采用函数迭代运算的数据流挖掘方法.pdf

广西 民族大学学报 (自然科学版) 第 18卷第 1期 JoURNAL OFGUANGXIUNIVERSITY FOR NATIONALITIES VoI.18N0.1 2012年 3月 (NaturaIScienceEdition) M ar.2012 一 种 采 用 函数 迭 代 运 算 的 数 据 流 挖 掘 方 法 管忆军 ,王 勇 ,何德牛 (1.广西民族大学 信息科学与工程学院,广西 南宁 530006; 2.中国人民银行梅州市中心支行,广东 梅州 514021) 摘 要 :针对数据流的特点,提出利用函数迭代运算的方法来提取数据流中的频繁项集的挖掘方法.整 个挖掘过程只需扫描数据流一次,不产生频繁候选集.算法的时间复杂度是 比较低 的.实验仿真 结果也验证 了该挖掘方法是有效的和可行的. 关键词 :数据挖掘;数据流;函数迭代;频繁项集 中图分类号 :TP312 文献标识码 :A 文章编号:1673—8462(2012)01--0045—05 0 引 言 高的置信度,将频率估计值控制在相对较小 的区间 数据流挖掘技术越来越受到计算机界 内学者 的 内.然而,该误差区间并不是完全确定 的,而只是从概 重视.数据流通常是 由实时监视系统、通信 网络等动 率的角度来加以保证的.二是采用基于确定误差区间 态环境所产生.与传统 的静态数据集不 同,数据流具 的近似算法u.这一策略是将数据流进行分段,在段 有不间断的、实时的、海量的、高速的特点,通常以不 的边界处 ,根据允许的误差 e舍弃不满足支持度 的项 同的更新速率连续不断地流进和流出计算机系统.因 集.然而 ,以上这些挖掘技术也存在一些不足 :(1)只 此不可能存储整个数据流或者对其进行多次扫描.这 挖掘到数据流中的部分频繁项集 ,而不是全部;(2)需 就要求数据流挖掘算法必须具备单遍扫描 的、在线 事先人为确定支持度 阈值 ,然后再对数据流进行挖 的、多维的流数据处理等性能.而现有 的Apriori等 掘,这使得小于支持度阈值的项集得不到任何信息. 挖掘算法一般需要多次扫描数据集 ,不具备单遍扫描 如果人为给定 的支持度 阈值过大,有可能挖掘不到任 数据集的挖掘性能.针对数据流 的特点 ,不少学者提 何有用的信息;(3)当需对数据流进行精确挖掘时,近 出了挖掘数据流中频繁模式 的挖掘技术 .这些挖 似挖掘技术也不适用. 掘技术总体上可分为采用两种策略u :一是采用基 本文针对现有的挖掘算法之不足 ,提出了一种基 于概率误差区间的近似算法u .这一策略只是以较 于函数迭代方法 的数据流挖掘算法 (Adatastream * 收稿 日期 :2011-12—1O. 基金项 目:广西 自然科学基金(0832084);广西混杂计算与集成 电路设计分析重点实验室(GuangxiKeyLaboratoryofHy. ●

文档评论(0)

文档精品 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6203200221000001

1亿VIP精品文档

相关文档