数据挖掘导论,翻译PT,第一部分.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘导论,翻译PT,第一部分

11/19/01 ? 浙江万里学院 数据挖掘教程 第一部分 导论 主讲:黄剑 数据挖掘提纲 第一部分 概述 相关概念 数据挖掘技术 第二部分 分类 聚类 关联规则 第三部分 Web 挖掘 空间数据挖掘 时序数据挖掘 概述 数据挖掘的定义 数据挖掘与数据库 数据挖掘任务 数据挖掘的发展 数据挖掘的问题 引言 数据量正在以惊人的速度增长 用户希望得到深层的信息 如何得到?? 数据挖掘的定义 从数据库中发现隐藏的信息 为数据寻找一个适合的模型 类似的定义 探索性数据分析 数据驱动发现 归纳学习 数据挖掘算法 目标: 为数据找一个适合的模型 描述型模型 预测型模型 偏好 – 必须使用一些标准来进行模型选择 搜索 – 所有的算法都要使用一些技术对数据进行搜索 数据库处理 vs. 数据挖掘 查询 容易定义 SQL 查询 很难定义 没有一个精确的语言 例子分析 数据库 数据挖掘 数据挖掘模型及任务 基本数据挖掘任务 分类 将数据映射到预先定义好的群组或类 有指导学习 模式识别 预测 回归 将数据项映射到一个实值预测变量(线性回归,非线性回归,Logistic回归). 聚类 将类似的数据归并为同一类别的过程. 无指导的学习 分割 基本数据挖掘任务 汇总 将数据映射到伴有简单描述的子集. 特征化 泛化 关联规则(连接分析) 揭示数据之间相互关系的一项数据挖掘任务. 偏好的分析 关联规则 序列发现. 时间序列分析 例子: 证券市场 预测未来的市值 确定不用时间序列的相似性 确定时间序列行为 数据挖掘VS知识发现 知识发现 (KDD): 从数据中发现有用的(隐藏的)模式.——知识抽取、信息发现、探索性数据分析、信息收获、无指导模式识别. 数据挖掘: 使用算法来抽取信息和模式,是KDD过程的一个步骤. KDD 过程 选择: 从不同是数据源获取数据. 预处理: 清洗数据. 变换: 将不用数据源获得的数据转成统一的格式. 数据挖掘: 产生期望的挖掘结果. 解释/评价: 向最终用户提交结果. 可视化技术 图形的 几何的 基于图标的 基于象素的 层次的 混合的 数据挖掘发展 数据挖掘的问题 人的作用 过拟和 异常点 结果的解释 结果可视化 大型数据库 高维数据 数据挖掘的问题(续) 多媒体数据 缺失数据 不相关数据 噪声数据 变化数据 集成 应用 数据挖掘度量 有效性 投资回报率 (ROI) 准确性 空间、时间 数据挖掘的社会影响 隐私 特殊领域的分析 不经过授权的使用 从数据库观点看数据挖掘 可伸缩性 现实世界的数据 更新 使用方便 数据挖掘未来的发展 仅仅是许多工具的集合 需要人为定义需求,人为解释 复杂的“查询语言”(DMQL) 知识与数据发现管理系统 数据挖掘的跨行业标准过程 相关的概念 数据库/OLTP系统 模糊集和模糊逻辑 信息检索(Web 搜索引擎) 维数据建模 数据仓库 OLAP/决策支持系统 统计学 机器学习 模式匹配 数据库和OLTP系统 具有特定的关联结构和模式 (ID,Name,Address,Salary,JobNo) 数据模型 实体-关系(ER) 关联 处理 查询: SELECT Name FROM T WHERE Salary 100000 DM: 不确定的查询 模糊集和模糊逻辑 模糊集: 一个集合,隶属于函数f,f是一个实值函数,输出在[0,1]之间. f(x): x属于F的可能性. 1-f(x): x不属于F的可能性. EX: T = {x | x 很高} f(x) 就是x属于高的可能性 DM: 预测和分类都是模糊的. 模糊集 分类和预测 信息检索 信息检索 (IR): 从文本数据中检索出所需的信息. 图书馆(管理)学 数字资源 Web 搜索引擎 基于传统关键词的搜索 简单例子: 找出所有关于数据挖掘的书. DM: 相似度度量; 文本数据挖掘. 信息检索 (续) 相似性: 度量查询得到的文档与用户有兴趣的文档的相似程度. 有效性. 度量方法: 查准率 = 检索到的相关文档 检索到的文档数 召回率 = 检索到的相关文档 实际相关的文档数 IR 查询结果的度量 维数据建模 以一种不同的方式查看和问询数据库中的数据,但不是必须,仅为了高效 可在DSS和数据挖掘相结合的任务中使用 维: 是一个逻辑相关的属性集合. 事实: 存储的特殊数据 例如:维– 产品, 地区, 日期 事实 – 数目, 单价 数据挖掘: 把数据看成多维的. 多维数据的关系视图 维数据查询 上卷: 更一般的层次 下钻: 更特殊的层次 聚合层次 利用SQL进行聚合 决策支持系统 (DSS):

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档