数据挖掘导论,翻译PT,第一部分.pptVIP

下载本文档

3
0
约6.33千字
约 88页
2018-06-23 发布于浙江
举报
版权申诉

数据挖掘导论,翻译PT,第一部分.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘导论,翻译PT,第一部分

11/19/01 ? 浙江万里学院数据挖掘教程第一部分导论主讲：黄剑数据挖掘提纲第一部分概述相关概念数据挖掘技术第二部分分类聚类关联规则第三部分 Web 挖掘空间数据挖掘时序数据挖掘概述数据挖掘的定义数据挖掘与数据库数据挖掘任务数据挖掘的发展数据挖掘的问题引言数据量正在以惊人的速度增长用户希望得到深层的信息如何得到？？数据挖掘的定义从数据库中发现隐藏的信息为数据寻找一个适合的模型类似的定义探索性数据分析数据驱动发现归纳学习数据挖掘算法目标: 为数据找一个适合的模型描述型模型预测型模型偏好 – 必须使用一些标准来进行模型选择搜索 – 所有的算法都要使用一些技术对数据进行搜索数据库处理 vs. 数据挖掘查询容易定义 SQL 查询很难定义没有一个精确的语言例子分析数据库数据挖掘数据挖掘模型及任务基本数据挖掘任务分类将数据映射到预先定义好的群组或类有指导学习模式识别预测回归将数据项映射到一个实值预测变量（线性回归，非线性回归，Logistic回归）. 聚类将类似的数据归并为同一类别的过程. 无指导的学习分割基本数据挖掘任务汇总将数据映射到伴有简单描述的子集. 特征化泛化关联规则（连接分析）揭示数据之间相互关系的一项数据挖掘任务. 偏好的分析关联规则序列发现. 时间序列分析例子: 证券市场预测未来的市值确定不用时间序列的相似性确定时间序列行为数据挖掘VS知识发现知识发现 (KDD): 从数据中发现有用的（隐藏的）模式.——知识抽取、信息发现、探索性数据分析、信息收获、无指导模式识别. 数据挖掘: 使用算法来抽取信息和模式，是KDD过程的一个步骤. KDD 过程选择: 从不同是数据源获取数据. 预处理: 清洗数据. 变换: 将不用数据源获得的数据转成统一的格式. 数据挖掘: 产生期望的挖掘结果. 解释/评价: 向最终用户提交结果. 可视化技术图形的几何的基于图标的基于象素的层次的混合的数据挖掘发展数据挖掘的问题人的作用过拟和异常点结果的解释结果可视化大型数据库高维数据数据挖掘的问题(续) 多媒体数据缺失数据不相关数据噪声数据变化数据集成应用数据挖掘度量有效性投资回报率 (ROI) 准确性空间、时间数据挖掘的社会影响隐私特殊领域的分析不经过授权的使用从数据库观点看数据挖掘可伸缩性现实世界的数据更新使用方便数据挖掘未来的发展仅仅是许多工具的集合需要人为定义需求，人为解释复杂的“查询语言”（DMQL）知识与数据发现管理系统数据挖掘的跨行业标准过程相关的概念数据库/OLTP系统模糊集和模糊逻辑信息检索(Web 搜索引擎) 维数据建模数据仓库 OLAP/决策支持系统统计学机器学习模式匹配数据库和OLTP系统具有特定的关联结构和模式 (ID,Name,Address,Salary,JobNo) 数据模型实体－关系（ER）关联处理查询: SELECT Name FROM T WHERE Salary 100000 DM: 不确定的查询模糊集和模糊逻辑模糊集: 一个集合，隶属于函数f，f是一个实值函数，输出在[0,1]之间. f(x): x属于F的可能性. 1-f(x): x不属于F的可能性. EX: T = {x | x 很高} f(x) 就是x属于高的可能性 DM: 预测和分类都是模糊的. 模糊集分类和预测信息检索信息检索 (IR): 从文本数据中检索出所需的信息. 图书馆（管理）学数字资源 Web 搜索引擎基于传统关键词的搜索简单例子: 找出所有关于数据挖掘的书. DM: 相似度度量; 文本数据挖掘. 信息检索 (续) 相似性: 度量查询得到的文档与用户有兴趣的文档的相似程度. 有效性. 度量方法: 查准率 = 检索到的相关文档检索到的文档数召回率 = 检索到的相关文档实际相关的文档数 IR 查询结果的度量维数据建模以一种不同的方式查看和问询数据库中的数据，但不是必须，仅为了高效可在DSS和数据挖掘相结合的任务中使用维: 是一个逻辑相关的属性集合. 事实: 存储的特殊数据例如:维– 产品, 地区, 日期事实 – 数目, 单价数据挖掘: 把数据看成多维的. 多维数据的关系视图维数据查询上卷: 更一般的层次下钻: 更特殊的层次聚合层次利用SQL进行聚合决策支持系统 (DSS):