第一章：引言2.pptx

下载文档

0
0
约3.8千字
约 84页
2018-01-15 发布于江苏
举报
版权申诉
保障服务

第一章：引言2.pptx

1、本文档共84页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘;四个例子;四个例子;4;课程性质、目的;课程内容;本章内容;1.1 数据挖掘产生背景 ;1.1 数据挖掘产生背景 ;1.1 数据挖掘产生背景 ;1.1 数据挖掘产生背景 ;1.1 数据挖掘产生背景 ;本章内容;数据挖掘（Data mining）：从海量数据中抽取有趣的(non-trivial, implicit, previously unknown and potentially useful) 信息或模式其它名称 Knowledge discovery in databases (KDD), knowledge extraction, data/pattern analysis, data archeology, information harvesting, business intelligence, etc. ;1.2 数据挖掘定义与基本问题;1.2数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;数据挖掘的多维视图挖掘对象：关系的, 事务的, 面向对象的, 空间的, 时间序列的, 文本的, 多媒体的, 异构的, 历史的, WWW等所挖掘的知识：关联, 分类, 聚类, 趋势, 偏离和孤立点分析等所用技术：面向数据库的, 数据仓库 (OLAP), 机器学习, 统计学, 可视化, 神经网络等应用：零售, 电讯, 银行, 欺骗分析, DNA 挖掘, 股票市场分析, Web 挖掘, Web日志分析等;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;1.2 数据挖掘的基本问题;挖掘出的所有模式都是有趣的吗? 一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的兴趣度度量 : 一个模式是有趣的如果它是易于被人理解的, 在某种程度上在新的或测试数据上是有效的, 潜在有用的, 新颖的, 可验证的客观与主观的兴趣度度量 : 客观: 基于模式的统计, 例如, 支持度, 置信度等主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性(actionability) 等;数据挖掘能产生所有有趣的模式吗? (完整性问题) 期望挖掘出所有可能的模式通常是不现实的与低效的应使用用户指定的约束与兴趣度指标进行聚焦部分算法能够保证完整性。关联规则、序列模式、…;1.2 数据挖掘的基本问题;本章内容;1.3 数据挖掘的主要任务;1.3 数据挖掘的主要任务;1.3 数据挖掘的主要任务 – 关联规则挖掘;1.3 数据挖掘的主要任务 – 关联规则挖掘;购物架管理识别哪些商品经常被一起出售对销售数据（条码扫描器）处理以发现商品间的相关性例子：如果顾客买了尿片与牛奶，他很有可能买啤酒。是不是把啤酒放在尿片附近？;市场营销和推销: 假设有关联规则: {面包圈, … } -- {薯片} 薯片作为结果: 能够用于判定用什么可以提升薯片的销售面包圈作为前提: 能够用于判定面包圈停止供应后，会影响那些商品的销售能够用于判定哪些商品和面包圈一起销售，能提升薯片的销售;1.3 数据挖掘的主要任务 – 序列模式分析;1.3 数据挖掘的主要任务 – 序列模式分析;1.3 数据挖掘的主要任务 – 序列模式分析;1.3 数据挖掘的主要任务 – 序列模式分析;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;1.3 数据挖掘的主要任务 – 分类;;1.3 数据挖掘的主要任务 – 聚类;1.3 数据挖掘的主要任务 – 聚类;1.3 数据挖掘的主要任务 – 聚类;1.3 数据挖掘的主要任务 – 孤立点分析;1.3 数据挖掘的主要任务 – 孤立点分析;本章内容;规模大高效算法, 并行处理高维特征导致搜索空间指数级的增长维度约减过拟合因过分强调对训练样本的效果导致过度拟合，使得对未知预测样本效果就会变差动态、缺失、噪音数据领域知识的运用模式的可理解性;数据挖掘领域专家在ICDM2005列出了10大挑战性问题发展统一的数据挖掘理论多维的数据挖掘和高速流的数据挖掘具有可扩展性，支持millions、billions级维度的数据分类，支持超高速流数据的挖掘时序系列的数据挖掘从复杂数据中的复杂知识的挖掘图数据挖掘不满足i.i.d (independent and identically distributed)