数据挖掘原理、_算法及应用第1章_绪论教材教学课件.pptVIP

下载本文档

7
0
约8.37千字
约 60页
2018-03-14 发布于天津
举报
版权申诉

数据挖掘原理、_算法及应用第1章_绪论教材教学课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

教学课件讲义PPT教学教案培训资料医学中小学上课资料

　　大量的时间序列是非平稳的，其特征参数和数据分布随着时间的推移而发生变化，仅仅通过对某段历史数据的训练，建立单一的神经网络预测模型，还无法完成准确的预测任务，为此，人们提出了统计学和基于精确性的再训练方法，当发现现存预测模型不再适用于当前数据时，对模型重新训练，获得新的权重参数，建立新的模型。此外，有许多系统借助并行算法的计算优势对时间序列进行预测。　　5. 偏差型知识(Deviation) 　　偏差型知识是指通过分析标准类以外的特例、数据聚类外的离群值、实际观测值和系统预测值间的显著差别，对差异和极端特例进行描述。所有这些知识都可以在不同的概念层次上被发现，并随着概念层次的提升，从微观到中观、到宏观，满足不同用户不同层次决策的需要。 1.3.2　数据挖掘的功能 　　数据挖掘用于在指定数据挖掘任务中找到模式类型。数据挖掘任务一般可以分两类：描述和预测。描述性挖掘任务刻画数据库中数据的一般特性；预测性挖掘任务在当前数据上进行推测和预测。  　　用户有时不知道他们的数据中什么类型的模式是有趣的，因此数据挖掘系统要能够并行地挖掘多种类型的模式，以适应不同的用户需要或不同的应用。此外，数据挖掘系统应当能够发现各种粒度(即不同的抽象层次)的模式。数据挖掘系统应当允许用户给出提示，指导或聚焦有趣模式的搜索。由于有些模式并非对数据库中的所有数据都成立，通常每个被发现的模式需要带上一个确定性或“可信性”度量。  　　数据挖掘的功能主要体现在以下六个方面。　　1. 类/概念描述：特征化和区分 　　数据可以与类或概念相关联。一个概念常常是对一个包含大量数据的数据集合总体情况的概述。对含有大量数据的数据集合进行描述性的总结并获得简明、准确的描述，这种描述就称为类/概念描述(Class/Concept Description)。这种描述可以通过下述方法得到：  　　(1) 数据特征化，一般地汇总所研究类(称为目标类(Arget Class))的数据。 　　(2) 数据区分，将目标类与一个或多个比较类(常称为对比类(Ontrasting Class))比较。　　(3) 数据特征化和比较。  　　数据特征化(Data Characterization)是目标类数据的一般特征或特性的汇总。通常，用户指定类的数据通过数据库查询收集。例如，为研究上一年销售增加10%的软件产品的特征，可以通过执行一个SQL查询收集关于这些产品的数据。  　　有许多有效的方法可以将数据特征化和汇总。例如，基于数据立方体的OLAP上卷操作可以用来执行用户控制的、沿着指定维的数据汇总。一种面向属性的归纳技术可以用来进行数据的概化和特征化，而不必一步步地与用户进行交互。 　数据特征可以通过多种形式输出，包括饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以由概化关系(Generalized Relation)或规则形式(称作特征规则)提供。  　　数据区分(Data Discrimination)是将目标类对象的一般特性与一个或多个对比类对象的一般特性比较。目标类和对比类由用户指定，而对应的数据通过数据库查询检索。例如，用户可能希望将上一年销售增加10%的软件产品与同一时期销售至少下降30%的那些产品进行比较。用于数据区分的方法与用于数据特征化的方法类似。　　区分描述的输出形式类似于特征描述，但区分描述应当包括比较度量，帮助区分目标类和对比类。用规则表示的区分描述称为区分规则(Discriminant Rule)。用户应当能够对特征和区分描述的输出进行操作。  　　2. 关联分析 　　关联分析(Association Analysis)就是从给定的数据集中发现频繁出现的项集模式知识, 又称为关联规则Association Rules。关联分析广泛应用于市场营销、事务分析等领域。 　通常关联规则具有X　Y形式即“A1∧…∧Am　　　　B1∧…∧Bn” 的规则，其中，Ai (i∈{1, …, m}), Bj (j∈{1, …，n}) 均为属性—值(属性=值)形式。关联规则X Y表示“数据库中的满足X中条件的记录(tuples)也一定满足Y中的条件”。　　3. 分类和预测 　　分类(Classification)就是找出一组能够描述数据集合典型特征的模型（或函数），以便能够分类识别未知数据的归属或类别(Class)，即将未知事例映射到某种离散类别之一。分类模型（或函数）可以通过分类挖掘算法从一组训练样本数据（其类别归属已知）中学习获得。 分类挖掘所获得的分