第一章:引言2.pptx

  1. 1、本文档共84页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘;四个例子;四个例子;4;课程性质、目的;课程内容;本章内容;1.1 数据挖掘产生背景 ;1.1 数据挖掘产生背景 ;1.1 数据挖掘产生背景 ;1.1 数据挖掘产生背景 ;1.1 数据挖掘产生背景 ;本章内容;数据挖掘(Data mining):从海量数据中抽取有趣的(non-trivial, implicit, previously unknown and potentially useful) 信息或模式 其它名称 Knowledge discovery in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, information harvesting, business intelligence, etc. ;1.2 数据挖掘定义与基本问题;1.2数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;数据挖掘的多维视图 挖掘对象:关系的, 事务的, 面向对象的, 空间的, 时间序列的, 文本的, 多媒体的, 异构的, 历史的, WWW等 所挖掘的知识:关联, 分类, 聚类, 趋势, 偏离和孤立点分析等 所用技术:面向数据库的, 数据仓库 (OLAP), 机器学习, 统计学, 可视化, 神经网络等 应用:零售, 电讯, 银行, 欺骗分析, DNA 挖掘, 股票市场分析, Web 挖掘, Web日志分析等;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;挖掘出的所有模式都是有趣的吗? 一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的 兴趣度度量 : 一个模式是 有趣的 如果它是 易于被人理解的, 在某种程度上在新的或测试数据上是有效的, 潜在有用的, 新颖的, 可验证的 客观与主观的兴趣度度量 : 客观: 基于模式的统计, 例如, 支持度, 置信度等 主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性(actionability) 等;数据挖掘能产生所有有趣的模式吗? (完整性问题) 期望挖掘出所有可能的模式通常是不现实的与低效的 应使用用户指定的约束与兴趣度指标进行聚焦 部分算法能够保证完整性。关联规则、序列模式、…;1.2 数据挖掘的基本问题;本章内容;1.3 数据挖掘的主要任务;1.3 数据挖掘的主要任务;1.3 数据挖掘的主要任务 – 关联规则挖掘;1.3 数据挖掘的主要任务 – 关联规则挖掘;购物架管理 识别哪些商品经常被一起出售 对销售数据(条码扫描器)处理以发现商品间的相关性 例子:如果顾客买了尿片与牛奶,他很有可能买啤酒 。是不是把啤酒放在尿片附近?;市场营销和推销: 假设有关联规则: {面包圈, … } -- {薯片} 薯片作为结果: 能够用于判定用什么可以提升薯片的销售 面包圈作为前提: 能够用于判定面包圈停止供应后,会影响那些商品的销售 能够用于判定哪些商品和面包圈一起销售,能提升薯片的销售;1.3 数据挖掘的主要任务 – 序列模式分析;1.3 数据挖掘的主要任务 – 序列模式分析;1.3 数据挖掘的主要任务 – 序列模式分析;1.3 数据挖掘的主要任务 – 序列模式分析;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;;1.3 数据挖掘的主要任务 – 聚类;1.3 数据挖掘的主要任务 – 聚类;1.3 数据挖掘的主要任务 – 聚类;1.3 数据挖掘的主要任务 – 孤立点分析;1.3 数据挖掘的主要任务 – 孤立点分析;本章内容;规模大 高效算法, 并行处理 高维特征 导致 搜索空间指数级的增长 维度约减 过拟合 因过分强调对训练样本的效果导致过度拟合,使得对未知预测样本效果就会变差 动态、缺失、噪音数据 领域知识的运用 模式的可理解性;数据挖掘领域专家在ICDM2005列出了10大挑战性问题 发展统一的数据挖掘理论 多维的数据挖掘和高速流的数据挖掘 具有可扩展性,支持millions、billions级维度的数据分类,支持超高速流数据的挖掘 时序系列的数据挖掘 从复杂数据中的复杂知识的挖掘 图数据挖掘 不满足i.i.d (independent and identically distributed)

文档评论(0)

djdjix + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档