ch81 挖掘数据流.pptVIP

下载本文档

5
0
约6.12千字
约 39页
2018-03-02 发布于江西
举报
版权申诉

ch81 挖掘数据流.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

ch81 挖掘数据流

Data Mining: Concepts and Techniques Data Mining: Concepts and Techniques — Chapter 8 —8.1. 挖掘数据流 Chapter 8 挖掘流、时间序列和序列数据挖掘数据流挖掘时间序列数据挖掘事务数据库中的序列模式挖掘生物学数据中的序列模式 8.1 挖掘数据流什么是流数据和流数据系统? 流数据处理方法和流数据系统流OLAP和流数据立方体数据流中的频繁模式挖掘动态数据流的分类聚类演变数据流数据流的特性数据流：以不同的更新速率连续地流进和流出计算机系统按时间顺序的、快速变化的、海量的、潜在无限的传统DBMS—数据存储在有限的、一致的数据集中数据流的特性海量可能无限的连续数据快速变化，要求快速、实时响应正确地抓住了当今社会数据处理的需求昂贵的随机访问开销：数据量太大，不可能存储全部或扫描多次往往存储数据汇总信息倾向于在很低的抽象层，需要高层和高维处理数据流应用实时监视系统通信网络 Internet传输信息金融市场或零售业的联机事务处理电力供应网工业生产过程科学和过程实验遥感器 Web日志和Web页面点击流 8.1 挖掘数据流什么是流数据和流数据系统? 流数据处理方法和流数据系统流OLAP和流数据立方体数据流中的频繁模式挖掘动态数据流的分类聚类演变数据流流数据处理方法方法大纲 (在正确性和存储空间之间平衡) 使用大纲数据结构，比基本的数据集合(O(N))小得多(O(logk N)) 寻找具有高概率的小误差范围内的近似答案常用的大纲数据结构和技术随机抽样滑动窗口直方图多分辨率方法梗概随机算法数据流系统和流查询流查询的处理流数据处理方法(1) 随机抽样（预先不知道流的长度）水库抽样：无放回地选取ｓ个元素的无偏随机样本在水库中维护s个候选的集合，形成到目前看到的流元素的真正随机样本随着数据流的流动，每个新元素都有一定的概率(s/N)取代水库中的旧元素滑动窗口仅仅基于滑动窗口（窗口大小为w）最近的数据作出决策在时刻t到来的数据元素在时刻t + w “过期” 直方图近似数据流中元素值的频率分布数据划分为一系列相邻的桶等宽(桶的值域) vs.等深 vs. V最优(最小化每个桶的频率方差) 多分辨率方法常用方法：平衡二叉树、宏簇（macro-clusters）、小波平衡二叉树：树的每一层提供不同的分辨率宏簇：层次聚类数据结构小波：构建输入信号的多分辨率层次结构流数据处理方法(2) 梗概试图对所有数据汇总；而抽样技术和滑动窗口模型关注小部分数据直方图和小波需要对数据扫描多遍，而梗概方法可以在一遍完成数据流A = {a1, …, aN} 的频率距Fk( Frequency moment): V是全域或定义域的大小， mi是i在序列中出现的频率给定N个元素和v个值的全域，梗概可以在O(log v + log N)空间中近似F0, F1, F2 随机算法以随机抽样和梗概的形式，处理海量、高维数据流拉斯维加斯（Las Vegas）算法：运行时间不确定，但总是返回正确的结果蒙特卡洛(Monte Carlo)算法：限制运行时间，但可能无法返回正确的结果雪而切夫(Chebyshev)不等式：限制随机变量的方差的界 X为随机变量，具有均值 μ 和标准方差 σ 切尔诺夫(Chernoff)界：使用大量随机变量提升结果的置信水平 X是独立泊松实验X1, …, Xn的和， δ ? (0, 1] 随着偏离均值，该概率指数地递降流数据处理方法(3) 数据流管理和流查询流数据无限、不可能完全存储在数据库中数据流管理系统(DSMS) 多个数据流、联机方式到达、连续的、时序的、潜在无限的数据流的查询处理结构：终端用户、查询处理器、临时空间终端用户发起查询，查询处理器接收查询，使用存放在临时空间的信息进行处理，最后将结果返回给用户查询方式（1）：一次性查询：计算数据集一个时间点的快照连续查询：随数据流连续达到不断求值查询方式（2）：预定义的：将相关数据提前提供给数据流管理系统即兴的：数据流开始之后联机提交流数据处理方法(4) 流查询的处理数据流可以无限制增长，准确回答的查询处理可能需要无界的内存近似的查询回答：减轻了内存的需求并有助于处理系统负荷近似的查询需要近似的历史记录来返回查询答案技术：随机抽样滑动窗口直方图梗概 8.1 挖掘数据流什么是流数据和流数据系统? 流数据处理方法和流数据系统流OLAP和流数据立方体数据流中的频繁模式挖掘动态数据流的分类聚类演变数据流挖掘动态数据流大部分数据流提供底层信