数据挖掘教案.doc

下载文档

61
0
约2.32万字
约 75页
2018-01-18 发布于山东
举报
版权申诉
保障服务

数据挖掘教案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

上课时间第一周上课节次 3节课型理论课题绪论教学目的使学生初步认识数据挖掘与数据仓库教学方法讲授重点、难点数据挖掘与数据仓库的定义及其应用价值时间分配教学内容板书或课件版面设计 1.1初识数据挖掘 1.1.1数据挖掘的产生数据挖掘产生的前提是需要从多年积累的大量数据中找出隐藏在其中的、有用的信息和规律。计算机技术和信息技术的发展使其有能力处理这样大量的数据。 1.1.2数据挖掘的应用价值应用数据挖掘从大量数据中发现规律是面向某一应用的规律，具有具体的指导意义。早期数据挖掘主要应用于商业领域，随着人们对数据挖掘了解的逐步深入，其应用领域逐步扩大到科学研究、市场营销、金融分析和体育比赛等领域。 1.1.3数据挖掘的发展过程数据挖掘是20世纪80年代人工智能研究项目失败后，人工智能转入实际应用时提出的，是一个新兴的、面向商业应用的人工智能研究。 1.1.4数据挖掘的定义数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 1.2初识数据仓库 1.2.1数据仓库的产生 20世纪80年代出现了数据仓库的思想，数据仓库是面向主题的、集成的、包含历史的、不可更新的、面向决策支持的、面向全企业的、最明细的数据存储、数据快照式的数据获取。 1.2.2数据仓库的应用价值传统数据库的处理方式和决策分析中的数据需求在决策处理的系统吸纳供应问题、决策数据需求的问题以及决策数据操作的问题方面不相称，导致企业无法使用现有的业务处理来满足决策分析的需要，因此决策分析需要一个能够不受传统事务处理的约束、高效率处理决策分析数据的支持环境，这就是数据仓库存在的价值。 1.2.3数据仓库的发展过程数据仓库是一种新的数据处理体系结构，是企业内部各部门业务数据和各种外部数据进行统一和综合的中央数据仓库，为企业决策支持系统提供所需的信息，是一种信息管理技术。目前世界上最大数据仓库是NRC公司建立的基于其Tera data数据库拥有24TB数据量的Wal-Mart数据仓库系统。 1.2.4数据仓库的定义数据仓库是面向主题的、集成的、不可更新的、随时间不断变化的数据集合，用以支持经营管理中的决策制定过程。 1.2.5数据仓库与数据挖掘的关系（1）数据仓库系统的数据可以作为数据挖掘的数据源（2）数据挖掘的数据源不一定必须是数据仓库系统 1.3进一步理解的数据挖掘 1.3.1数据挖掘的功能数据挖掘的目标是从数据中发现隐含的、有意义的知识，包括概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析7个方面的功能。（1）概念描述对某类对象的内涵进行描述，并概括这类对象的有关特征。其中，特征性描述用于描述某类对象的共同特征，区别性描述用于描述不同类对象之间的区别。（2）关联分析关联分析的目的在于找出数据中隐藏的关联网。（3）分类与预测所谓分类就是依照分析对象的属性分门别类、加以定义、建立类组，其关键是确定对数据按照什么标准或什么规则进行分类。所谓预测就是利用历史数据就爱能力模型，再运用最新数据作为输入值，获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。（4）聚类分析又称为无指导的学习，其目的在于客观地按照被处理对象的特征分类，将有相同特征的对象归为一类。（5）趋势分析又称为时间序列分析，是从相当长的时间的发展中发现规律和趋势，是时序数据挖掘最基本的内容。（6）孤立点分析又称为孤立点挖掘，是指数据库中包含的一些与数据的一般行为或模型不一致的数据。（7）偏差分析又称为比较分析，是对差异和极端特例的描述，用于揭示事物偏离常规的异常现象。 1.3.2数据挖掘常用技术数据挖掘算法是数据挖掘技术的一部分，数据挖掘技术用于执行数据挖掘功能，一个特定的数据挖掘功能只适用于给定的领域。聚类检测方法是最早的数据挖掘技术之一，在聚类检测技术中，不是搜寻预先分类的数据，也没有自变量和因变量之分，因此也称为无指导的知识发现或无监督学习。聚类生成的组叫簇，是数据对象的集合。聚类检测的过程就是使同一个簇内的任意两个对象之间具有较高的相似性，不同簇的两个对象之间具有较高的向异性。用于数据挖掘的聚类检测方法有：划分的方法、层次的方法、基于密度的方法、基于网络的方法和基于模型的方法等。决策树方法主要应用于分类和预测，提供了一种展示类似在什么条件下会得到什么值这类规则的方法。一个决策树表示一系列的问题，每个问题决定了继续下去的问题会是什么。决策树方法适合于处理费数值型数据。（3）人工神经网络方法人工神经网络方法主要用于分类、聚类、特征挖掘、预测等方面。它通过向一个训练数据集学