- 1、本文档共60页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Data Mining: Concepts and Techniques 第八章 挖掘流、时间序列、和序列数据 数据流挖掘 时间序列数据挖掘 挖掘事务数据库中的序列模式 挖掘生物学数据中的序列模式 挖掘数据流 什么是数据流?流数据系统? 流数据管理系统:问题及解决方法 多维OLAP分析和流数据立方体 数据流中的频繁模式分析 数据流分类 数据流聚类分析 研究问题 数据流的特征 数据流 数据流—连续的,有序的,快速变化的,海量的 传统的 DBMS—数据存放在有限的,固定的数据集中 特征 海量的持续不断地数据,可能是无限的 快速变化的,要求实时响应 数据流准确抓住了今天我们的数据处理需求 随机访问的开销太大—单遍扫描 (只能查看一次) 只存储即时数据的概要 多数流数据倾向于很低抽象层或多维的数据,需要多层次,多维的处理过程 流数据的应用 通信行业记录 商业:信用卡交易流 交通监视系统 金融行业:股票交易 工业工程行业:电力供应,工业生产过程 传感器,监视:视频流,RFIDs 安全监控系统 网络日志 DBMS 与DSMS 数据是固定的 只查询一次 随机访问 极大的磁盘存储 只存放当前数据 不需要实时服务 更新频率低 任何粒度的数据 数据是精确的 访问是由查询程序或DB的物理设计决定的 暂时数据流 连续查询 顺序访问 内存受限 历史数据是很重要的 要求实时响应 可能是多GB 的到达率 数据粒度小 数据不是精确的 访问不是预先确定的 挖掘数据流 什么是数据流?流数据系统? 流数据管理系统:问题及解决方法 多维OLAP分析和流数据立方体 数据流中的频繁模式分析 数据流分类 数据流聚类分析 研究问题 建筑学: 数据流查询过程 数据流处理面临的挑战 多维,连续,迅速,随时间变化,顺序的流数据 主存计算 查询往往是 连续的 随着数据流的到来要连续不断地计算 结果要随时间的变化更新 查询往往是复杂的 跨元素处理 跨流处理 跨相关的查询 (scientific, data mining, OLAP) 多层/多维 处理和数据挖掘 多数流数据都倾向于很底的抽象层,而且是多维的 数据流查询处理 查询类型 只查询一次 vs.连续不断地查询 (随着数据流连续不断地到来需要连续不断地计算) 预先确定的查询 vs.特殊查询 (联机发布) 极大的内存需求 实时响应,需要用到主存算法 如果要与未来元组链接则对内存的需求是极大地 近似的查询回答 由于主存的限制,往往不可能得到精确地解 期望能够得到高质量的近似解 减少数据,建立大纲 梗概,随机取样,直方图,小波 数据流处理的方法 主要挑战 数据量很大,如ip地址 技术 对照表 (准确率与存储空间之间的交换) 使用对照表数据要不使用基本数据集小的多 在一个小的误差范围内计算近似值 主要方法 随机抽样 直方图 滑动窗口 多分辨率办法 梗概 随机算法 数据流处理的方法(1) 随机抽样 (预先不知道长度) 水库抽样:在水库中维护s个候选集合,形成到目前看到的流元素的真正随机样本。随着数据的流动,每个新元素以概率s/N取代水库中的旧元素。 滑动窗口 仅仅基于最近的数据作出决策(滑动窗口的大小为w) 一个新的数据元素在t时刻到来,在t+w时刻过期 直方图 近似数据中元素值的频率分布 将数据分成一系列相邻的桶 等宽 (通的值域) 与V最优 (最小化每个桶的频率方差) 多分辨率模型 常用模型:平衡二叉树,微簇和小波 数据流处理方法 (2) 梗概 直方图和小波需要扫描数据多遍,梗概可以一遍完成 数据流A的频率矩 A = {a1, …, aN}, Fk: 其中 v是全域或定义域的大小, mi 是i在序列中出现的频率 给定序列的长度N和v,梗概近似的为 F0, F1, F2在O (log v + log N) 维空间 随机化算法 蒙特卡洛算法:算法的运行时间有上界,但是可能无法返回正确的解 切比雪夫不等式: 设x是随机变量,均值为μ方差为σ 切尔诺夫界: 令X是独立泊松实验 X1, …, Xn的和。 δ 属于(0, 1] 随着偏离均值,改改了指数地递减 近似的查询回答 滑动窗口 仅仅对最近的数据作出决策 得到近似的结果但通常更为实用 分批处理,抽样和对照表 如果更新很快而计算相对较慢则分批处理 周期性的计算,而不是即时计算 如果更新较慢而计算较快则抽样 实用抽样数据计算,但是对连接不利. 对照表数据结构 存储一小部分数据的对照表或梗概 对查询历史数据比较有利 封闭操作,例如:排序,均值,最小值等 当在全部的输入没有完成就得不到初始输出时,是封闭运算 DSMS (数据流管理系统) 上的项目 研究工程和系统原型 STREAM (Stanford):DSMS的一般用途 Cougar (Cornell): 传感器 Aurora
您可能关注的文档
最近下载
- 爱护小河社会活动课件.pptx VIP
- 医疗器械供货及质量保证措施.docx VIP
- 第4课《图片记录瞬间》义务教育信息科技课程教学指南 在线学习与生活 三年级全一册第二单元课时教学设计.doc VIP
- 棉花采摘机设计.docx
- 小数的简便算法(小学五年级上册加减乘除).ppt
- 医疗器械产品运输质量保证措施.docx VIP
- 人教版数学3年级下册 第2单元(除数是一位数的除法)单元测试6(含答案解释).docx
- 2025年中国旅游市场调查研究与发展趋势预测报告.docx VIP
- 百年学典中考总复习历史 中国古代史 第一单元 史前时期:中国境内早期人类与文明的起源[配套课件].ppt
- 党的宗旨、目标和任务课件.ppt VIP
文档评论(0)