数据挖掘原理算法与应用教学作者梁亚声第9章节电子教案课件幻灯片.ppt

数据挖掘原理算法与应用教学作者梁亚声第9章节电子教案课件幻灯片.ppt

  1. 1、本文档共51页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
9.8 空间数据挖掘 空间数据挖掘是指从空间数据库中抽取没有清楚表现出来的隐含的知识和空间关系,并发现其中有用的特征和模式的理论、方法和技术。 空间关系 空间关系描述 空间信息模型及其描述 聚类技术 分类技术 关联分析技术 孤立点检测技术 知识 9.8.3 空间数据挖掘技术 9.8 空间数据挖掘 目前成熟的空间数据挖掘(SDM)软件工具较少。具有一定代表性的SDM系统包括加拿大Simon Fraser大学开发的GeoMiner系统、支持可视化的空间数据分析工具Descartes和ESRI公司开发的用于空间数据分析的ArcView GIS S-PLUS接口。 国内有代表性的SDM系统是由中国科技大学开发的GISMiner。GISMiner以MapInfo为空间数据的管理平台,采用OLE的自动化集成方式,主要应用于农业管理。 9.8.4 空间数据挖掘工具 9.9 数据流挖掘 数据流在时间复杂度、空间复杂度、准确度和自适应等四个方面给传统的数据挖掘技术带来了艰巨挑战。数据流挖掘迫切需要满足低时间复杂度(Low Time Complexity)、低空间复杂度(Low Space Complexity)、近似准确度(Approximate Accuracy)以及自适应性(Adaptivity)的要求。 9.9 数据流挖掘 数据流主要具有连续、高速、无序、单遍处理和动态等特点。第一个特点是连续性。数据流连续不断的到达,数据总量无限的,因此存储流中所有数据的代价极大。第二个特点是高速性。数据流到达速率很快,数据流处理速度要求有时会超出系统的负载能力。第三个特点是无序性。数据流到达顺序和处理顺序不受应用系统控制。第四个特点是单遍处理。数据流一经处理,由于内存的限制,除非特意保存,一般不会被再次取出处理,数据流处理后,一般只采用概要数据结构保留其有用的数据。还有一个特点是动态性。数据流的到达速率和数据分布时刻会发生变化。 9.9.1 流数据特点 9.9 数据流挖掘 流抽样 为了避免存储整个数据流,流抽样采用周期性对数据流进行随机取样的方式。数据流的抽样方法是抽取小部分能代表数据流基本特征的样本,并根据该样本集合获得近似的查询结果。流抽样方法可分成均匀抽样(Uniform Sampling)和偏倚抽样 (Biased Sampling)两种。 窗口模型 窗口可以看作数据流输入序列的一个片段,是系统当前进行处理的数据对象。窗口模型的定义通常包括窗口端点的移动方向、窗口大小的量度、更新间隔等三个方面。按照窗口端点的移动方向,窗口模型可分为固定窗口(Fixed Window)、滑动窗口(Sliding Window)和界标窗口(Landmark Window)三类。 9.9.2 流数据预处理 9.9 数据流挖掘 频繁项集挖掘 数据流环境下的频繁项集挖掘的关键点是如何区别新事务中有价值的信息和旧事务中过时的信息。 聚类 数据流聚类算法必须能够快速、增量式地处理新数据,简洁、自适应地形成和表示聚类信息,并且稳健地处理噪音和异常数据。典型的数据流聚类算法有STREAM和C1uStream。 分类 数据流分类(Data Stream Classification)主要面临着两个新的挑战:一是高速、海量的流数据只能被扫描一次;而是类定义及其中的特征会随着时间变化发生漂移。数据流分类算法有通常是在传统分类算法基础上的改进。 9.9.3 流数据挖掘技术 9.9 数据流挖掘 数据流管理已经在多个领域有了应用,而数据流挖掘的应用报道相比较少。 针对数据流管理构建的数据流管理系统(Data Stream Management System,DSMS)实现了专门针对流数据类型的数据模型、查询机制及其他算法。数据流管理系统在功能上和适用范围上与现代其他的数据库管理系统有所不同,但是在技术上又融合了分布式数据库、内存数据库、主动数据库、时态数据库、实时数据库等不同数据库管理系统技术上的特点。 事实上,国内外许多著名大学和研究机构开发了一些的数据流管理系统,并且已经具有一些成功应用。典型的数据流管理系统有斯坦福大学研发的通用流系统STREAM、布朗大学、布兰蒂斯大学和麻省理工大学研发的大型流监控系统AuroraBorealis、加州大学伯克利分校的电信电话流系统TelegraphCQ以及威斯康星州立大学研发的Niagara系统。 9.9.3 流数据挖掘技术的应用 9.2 图像数据挖掘 9.2.2 图像数据预处理 特征提取 图像数据的特征提取主要包括视觉特征、统计特征和语义特征。 对象识别 对象识别指的是从图像中识别出对象及其空间关系,主要涉及图像分割(Image Segmentation)、对象模型的表示及对象识别等关键技术。 多维分析 图像数据多维分析通常采用的是数据立方

您可能关注的文档

文档评论(0)

开心农场 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档