- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
ch81 挖掘数据流
Data Mining: Concepts and Techniques Data Mining: Concepts and Techniques — Chapter 8 —8.1. 挖掘数据流 Chapter 8 挖掘流、时间序列和序列数据 挖掘数据流 挖掘时间序列数据 挖掘事务数据库中的序列模式 挖掘生物学数据中的序列模式 8.1 挖掘数据流 什么是流数据和流数据系统? 流数据处理方法和流数据系统 流OLAP和流数据立方体 数据流中的频繁模式挖掘 动态数据流的分类 聚类演变数据流 数据流的特性 数据流:以不同的更新速率连续地流进和流出计算机系统 按时间顺序的、快速变化的、海量的、潜在无限的 传统DBMS—数据存储在有限的、一致的数据集中 数据流的特性 海量可能无限的连续数据 快速变化,要求快速、实时响应 正确地抓住了当今社会数据处理的需求 昂贵的随机访问开销:数据量太大,不可能存储全部或扫描多次 往往存储数据汇总信息 倾向于在很低的抽象层,需要高层和高维处理 数据流应用 实时监视系统 通信网络 Internet传输信息 金融市场或零售业的联机事务处理 电力供应网 工业生产过程 科学和过程实验 遥感器 Web日志和Web页面点击流 8.1 挖掘数据流 什么是流数据和流数据系统? 流数据处理方法和流数据系统 流OLAP和流数据立方体 数据流中的频繁模式挖掘 动态数据流的分类 聚类演变数据流 流数据处理方法 方法 大纲 (在正确性和存储空间之间平衡) 使用大纲数据结构,比基本的数据集合(O(N))小得多(O(logk N)) 寻找具有高概率的小误差范围内的近似答案 常用的大纲数据结构和技术 随机抽样 滑动窗口 直方图 多分辨率方法 梗概 随机算法 数据流系统和流查询 流查询的处理 流数据处理方法(1) 随机抽样(预先不知道流的长度) 水库抽样:无放回地选取s个元素的无偏随机样本 在水库中维护s个候选的集合,形成到目前看到的流元素的真正随机样本 随着数据流的流动,每个新元素都有一定的概率(s/N)取代水库中的旧元素 滑动窗口 仅仅基于滑动窗口(窗口大小为w)最近的数据作出决策 在时刻t到来的数据元素在时刻t + w “过期” 直方图 近似数据流中元素值的频率分布 数据划分为一系列相邻的桶 等宽(桶的值域) vs.等深 vs. V最优(最小化每个桶的频率方差) 多分辨率方法 常用方法:平衡二叉树、宏簇(macro-clusters)、小波 平衡二叉树:树的每一层提供不同的分辨率 宏簇:层次聚类数据结构 小波:构建输入信号的多分辨率层次结构 流数据处理方法(2) 梗概 试图对所有数据汇总;而抽样技术和滑动窗口模型关注小部分数据 直方图和小波需要对数据扫描多遍,而梗概方法可以在一遍完成 数据流A = {a1, …, aN} 的频率距Fk( Frequency moment): V是全域或定义域的大小, mi是i在序列中出现的频率 给定N个元素和v个值的全域,梗概可以在O(log v + log N)空间中近似F0, F1, F2 随机算法 以随机抽样和梗概的形式,处理海量、高维数据流 拉斯维加斯(Las Vegas)算法:运行时间不确定,但总是返回正确的结果 蒙特卡洛(Monte Carlo)算法:限制运行时间,但可能无法返回正确的结果 雪而切夫(Chebyshev)不等式:限制随机变量的方差的界 X为随机变量,具有均值 μ 和标准方差 σ 切尔诺夫(Chernoff)界: 使用大量随机变量提升结果的置信水平 X是独立泊松实验X1, …, Xn的和, δ ? (0, 1] 随着偏离均值,该概率指数地递降 流数据处理方法(3) 数据流管理和流查询 流数据无限、不可能完全存储在数据库中 数据流管理系统(DSMS) 多个数据流、联机方式到达、连续的、时序的、潜在无限的 数据流的查询处理结构:终端用户、查询处理器、临时空间 终端用户发起查询,查询处理器接收查询,使用存放在临时空间的信息进行处理,最后将结果返回给用户 查询方式(1): 一次性查询:计算数据集一个时间点的快照 连续查询:随数据流连续达到不断求值 查询方式(2): 预定义的:将相关数据提前提供给数据流管理系统 即兴的:数据流开始之后联机提交 流数据处理方法(4) 流查询的处理 数据流可以无限制增长,准确回答的查询处理可能需要无界的内存 近似的查询回答:减轻了内存的需求并有助于处理系统负荷 近似的查询需要近似的历史记录来返回查询答案 技术: 随机抽样 滑动窗口 直方图 梗概 8.1 挖掘数据流 什么是流数据和流数据系统? 流数据处理方法和流数据系统 流OLAP和流数据立方体 数据流中的频繁模式挖掘 动态数据流的分类 聚类演变数据流 挖掘动态数据流 大部分数据流提供底层信
原创力文档


文档评论(0)