数据挖掘的概念与技术-北大ppt模版课件.ppt

下载文档 降价啦

3
0
约1.12万字
约 88页
2018-03-29 发布于湖北
举报
版权申诉
保障服务

数据挖掘的概念与技术-北大ppt模版课件.ppt

1、本文档共88页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘的概念与技术-北大ppt模版课件

* * 挖掘方法与用户交互问题不同的用户可能对不同类型的知识感兴趣数据挖掘系统应当覆盖广谱的数据分析和知识发现任务，包括数据特征、区分、关联、聚类、趋势、偏差分析和类似性分析等这些任务可能以不同的方式使用相同的数据库避免开发单一的挖掘应用，需设计良好的系统可扩展性多个抽象层的交互知识挖掘问题由于很难准确地知道能够在数据库中发现什么，数据挖掘过程应当是交互的对于包含大量数据的数据库，应当使用适当的选样技术，进行交互式数据探查交互式挖掘允许用户聚焦搜索模式，根据返回的结果提出和精炼数据挖掘请求特殊地，类似于立方体上的OLAP操作，应当通过交互地在数据空间和知识空间下钻、上卷和转轴，挖掘知识。用这种方法，用户可以与数据挖掘系统交互，以不同的粒度和从不同的角度观察数据和发现模式纳入领域知识的问题结合背景知识：可以使用背景知识或关于所研究领域的信息来指导发现过程，并使得发现的模式以简洁的形式，在不同的抽象层表示关于数据库的领域知识，如完整性限制和演绎规则，可以帮助聚焦和加快数据挖掘过程，或评估发现的模式的兴趣度 ?挖掘结果的表示问题发现的知识应当用高级语言、可视化表示形式、或其它表示形式表示，使得知识易于理解，能够直接被人使用如果数据挖掘系统是交互的，这一点尤为重要要求系统采用有表达能力的知识表示技术，如树、表、图、图表、交叉表、矩阵或曲线处理噪音和不完全数据问题存放在数据库中数据可能反映噪音、例外情况、或不完全的数据对象这些对象可能搞乱分析过程，导致数据与所构造的知识模型过分适应其结果是，所发现的模式的精确性可能很差。需要处理数据噪音的数据清理方法和数据分析方法，以及发现和分析例外情况的孤立点挖掘方法模式评估——兴趣度问题数据挖掘系统可能发现数以千计的模式对于给定的用户，许多模式不是有益的，它们表示平凡知识或缺乏新颖性使用兴趣度度量，指导发现过程和压缩搜索空间，是有效筛选有益模式的方法 ?算法的有效性和可伸缩性问题为了有效地从数据库中大量数据提取信息，数据挖掘算法必须是有效的和可伸缩的对于大型数据库，数据挖掘算法的运行时间必须是可预计的和可接受的从数据库角度，有效性和可伸缩性是数据挖掘系统实现的关键问题上面讨论的挖掘技术和用户交互的大多数问题，也必须考虑有效性和可伸缩性引言数据挖掘的概念与分类体系数据挖掘的原理与方法数据挖掘的相关国际标准数据挖掘系统结构数据挖掘系统设计中的若干问题数据挖掘新技术主要内容数据挖掘新技术数据流挖掘技术基于数据立方体的挖掘时空数据挖掘技术移动对象挖掘技术 Web挖掘技术 …… 数据流问题的提出电信领域：电话呼叫记录分析、网络管理数据分析金融领域：信用卡交易分析、证券交易分析网络监测和流量控制 Web日志与点击流分析能源供给部门的能源供给分析天气预报、地震预测传感网络监控 ? ? ? 数据流的定义与特点数据流：以顺序(ordered)、快速、随时间变化、可能无法预测并且数量巨大的流的形式连续到达的数据序列：特点大量、连续到达的数据，可能无限快速变化，需要快速、实时响应单次线性扫描算法，随机访问代价太高只能存储数据的汇总或提纲（synopsis）低层次、多维数据，需要多层次、多维处理数据流研究中的主要问题数据流查询技术当前焦点，主要是连续查询（continuous query）查询语言、查询计划、近似查询回答技术等数据流分析技术传统的统计分析，已比较成熟结合数据仓库与OLAP技术的多维多层次分析数据流挖掘数据流管理系统查询处理、资源管理、存储实现等 DBMS与DSMS的比较 DBMS DSMS 持久关系临时数据流一次查询（one-time query）连续查询（continuous query）随机访问顺序访问（sequential access） “极大的”（unbounded）磁盘存储有限的（bounded）主存仅是当前状态事务历史数据是重要的没有实时服务实时服务需求相当低的更新率可能多GB的到达率任何粒度层次的数据精粒度层次的数据采取精确数据形式数据是不精确的准确的查询回答近似回答通过查询处理器、物理数据库设计决定访问计划不可预测的、易变的数据到达情况和特征数据流处理的挑战多个、连续、快速、时变、有序的数据流主存计算查询经常是连续的数据到来时的连续估计随时间更新的查询结果查询经常是复杂的超越了“一次一成员”（element-at-a-time）的处理方式超越了“一次－个流”（stream-at-a-time）的处理方式超越了关系查询（科学数据库、数据挖掘、O