数据挖掘概念与技术第.pptx

下载文档 降价啦

5
0
约2.84千字
约 24页
2018-12-30 发布于江苏
举报
版权申诉
保障服务

数据挖掘概念与技术第.pptx

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘概念与技术第

数据挖掘概念与技术;第一章引论;1.1 为什么进行数据挖掘;定义：从大量的数据中提取有趣的（非平凡的，隐含的，以前未知的和潜在有用的）模式或知识。 “数据中发现知识”（KDD） ;;数据库数据数据库管理系统（DBMS）：数据+软件关系数据库：表组成 ;数据仓库从多个数据源收集的信息存储库，存放在一致的模式下，并且通常驻留在单个站点上。;数据立方体;事物数据数据库事务(Database Transaction) ，是指作为单个逻辑工作单元执行的一系列操作，要么完全地执行，要么完全地不执行。设想网上购物的一次交易，其付款过程至少包括以下几步数据库操作：一、更新客户所购商品的库存信息二、保存客户付款信息--可能包括与银行系统的交互三、生成订单并且保存到数据库中四、更新用户相关信息，例如购物数量等等; 其他类型的数据股票交易数据文本图像音频视频未知的;1.4.1 类/概念描述：特征化与区分数据特征化目标数据的一般特性或特征汇总类/概念数据区分将目标类数据对象的一般性与一个或多个对比类对象的一般特性进行比较特征化和区分; 1.4.2 挖掘频繁模式、关联和相关性频繁模式是在数据中频繁出现的模式 1.频繁项集、频繁子序列、频繁子结构 2.挖掘频繁模式可以发现数据中的关联和相关性例如：单维与多维关联;1.4.3 用于预测分析的分类与回归分类和预测找出描述和识别类或概念的模型( 函数), 用于将来的预测例如根据气候对国家分类, 或根据单位里程的耗油量对汽车分类表示: 决策树(decision-tree), 分类规则, 神经网络回归建立连续值函数模型一般线性回归，logistic回归 ;1.4.4 聚类分析分析数据对象，不考虑类标号聚类原则: 最大化类内的相似性, 最小化类间的相似性 ;1.4.5 离群点分析离群点：与数据的的一般行为或模型不一致孤立点可以被视为例外, 但对于欺骗检测和罕见事件分析, 它是相当有用的 ;1.4.6 所有模式都是有趣的吗一个数据挖掘系统/查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的建议的方法: 以人为中心, 基于查询的, 聚焦的挖掘兴趣度度量 : 一个模式是有趣的如果它是易于被人理解的, 在某种程度上在新的或测试数据上是有效的, 潜在有用的, 新颖的, 或验证了用户希望证实的某种假设客观与主观的兴趣度度量 : 客观: 基于模式的统计和结构, 例如, 支持度, 置信度, 等. 主观: 基于用户对数据的确信, 例如, 出乎意料, 新颖性, 可行动性(actionability), 等. ;1.4.6 所有模式都是有趣的吗发现所有有趣的模式: 完全性数据挖掘系统能够发现所有有趣的模式吗? 关联 vs. 分类 vs. 聚类仅搜索有趣的模式: 优化数据挖掘系统能够仅发现有趣的模式吗? 方法首先找出所有模式, 然后过滤掉不是有趣的那些. 仅产生有趣的模式— 挖掘查询优化 ;1.5 使用什么技术;1.6.1 商务智能例如：挖掘潜在客户商务决策 1.6.2 Web搜索引擎 Google 的流感趋势 · · ·;挖掘方法挖掘各种新的知识类型挖掘多维空间中的知识数据挖掘——跨学科的努力提升网络环境下的发现能力处理不确定性、噪声或不完全数据模式评估和模式或约束指导的挖掘用户界面交互挖掘结合背景知识特定的数据挖掘和数据挖掘查询语言数据挖掘结果的表示和可视化 ; 有效性和可伸缩性数据挖掘算法的有效性和可伸缩性并行、分布式和增量挖掘算法数据库类型的多样性处理复杂的数据类型挖掘动态的、网络的、全球的数据库数据挖掘与社会数据挖掘的社