人工智能原理及MATLAB实现教案第6章数据挖掘.docx

下载文档

0
0
约3.13千字
约 6页
2024-05-08 发布于山东
举报
版权申诉
保障服务

人工智能原理及MATLAB实现教案第6章数据挖掘.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《人工智能算法》课程教案

教学目的、要求：

1..掌握数据挖掘的概念和数据挖掘的过程

2.了解数据挖掘算法，掌握前三种经典算法

3..掌握关联分析技术和粗糙集技术，了解可视化技术的分类、聚类方法

4..掌握数据挖掘的分类、预测、聚类三方面的应用，重点是预测应用

5.了解数据挖掘的应用领域，并能利用matlab实现简单的数据挖掘

教学重点及难点：

重点：数据挖掘的过程和应用

难点：数据挖掘的算法和两种分析技术

教学基本内容

教学过程设计

§6数据挖掘

§6.1数据挖掘概述

大数据在给人们带来方便的同时也带来了一大堆问题：信息冗余；信息真伪难辨，给信息的正确应用带来困难。。为了满足人们数据分析工具的需求，20世纪80年代后期高级数据分析—基于数据库的知识发现（KnowledgeDiscoveryinDatabase，KDD）及相应的数据挖掘（DataMining，DM）理论和技术应运而生。

数据挖掘定义（分两个层面）

技术层面：探查和分析大量数据以发现有意义的模式和规则的过程。

商业层面：一种商业信息处理技术，其主要特点是对大量业务数据进行抽取、转换、分析和建模处理，从中抽取辅助商业决策的关键性数据。

数据挖掘的分类、过程与任务

分类标准：1.根据数据库类型分类

2.根据数据挖掘对象分类

3.根据数据挖掘任务分类

4.根据数据挖掘技术分类

5.根据数据挖掘方法分类

数据挖掘的过程：

数据准备→数据挖掘→结果表达和解释

数据挖掘任务：

概念描述；关联分析；时间序列分析；分类分析；聚类分析；离群点检测；预测

数据挖掘建模：

成功运用数据挖掘，对数据挖掘技术层次的理解至关重要，尤如何将数据变成有用信息的过程就是对这个数据挖掘过程进行建模。

一般过程：业务理解→数据理解→数据准备→建模→评估→部署

§6.2数据挖掘算法

统计分析方法：

假设检验：假设检验中有二类重要问题，第一个是根据样本的信息判断总体分布是否具有指定的特征；第二个是在估计某未知参数β时，除了求出它的点估计外，还希望在一定的置信水平上估计出一个范围，即β的置信区间。

1.随机误差的判断

（1）χ2检验。（2）F检验。

2.系统误差的检验

（1）平均值与给定值比较。

（2）两个平均值的比较。

（3）成对数据的比较。

回归分析：

1.一元线性回归分析

2.多元线性回归分析

3.非线性回归分析

二项逻辑（logistic）回归

当被解释变量为0/1二值品质型变量时，称为二项逻辑回归。二项逻辑回归虽然不能直接采有用一般线性多元回归模型拟合，但仍然可以充分利用线性回归模型建立的理论和思路来拟合。

方差分析；因子分析

§6.3数据挖掘相关技术

§6.3.1关联分析

主要研究数据中不同领域之间的关系，找出满足给定支持度和可信度阈值的多个域之间的依赖关系。即相关性、关联关系，因果关系。关联规则模式属于描述型模式，发现关联规则的算法属于无监督学习的方法。

关联规则的主要概念

关联规则的种类

（1）基于规则中处理的变量的类型，关联规则可以分为布尔型和数值型。

（2）基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。

（3）基于规则中到的数据的维数，关联规则可以分为单维的和多维的。

关联规则的价值衡量：

1.系统客观层面

2.用户主观层面

（1）数据挖掘。

（2）指定挖掘的维和层次。

（3）规则约束。

Apriori关联规则算法（了解）

时序关联规则算法

多值属性关联规则算法

§6.3.2粗糙集技术

在现实世界中，并不能简单地用好坏、真假等确切的概念表示许多含糊现象，特别是在于集合的边界上，也即存在一些个体，既不能说它属于某个子集，也不能说它不属于该子集。20世纪80年代提出了粗糙集（RoughSet）理论。粗糙集用上、下近似两个集合来逼近任意一个集合，该集合的边界区域被定义为上近似集和下近似集的差，边界区域就是那些无法归属的个体。上、下二近似集合可以通过等价关系给出确定的描述，边界域的元素数目可以被计算出来。

粗糙集理论的基本概念：

1.知识表达系统和决策表

2.等价关系

3.等价划分

4.上近似集和下近似集

5.粗糙集

6.粗糙集的非确定性的精确度αA(Y)和粗糙度ρA(Y)

分类规则的形成：

（1）当Y∩X≠，则有：des(Y)→des(X)

des(Y)和des(X)分别是等价集Y和等价集X中的特征描述：

①当Y∩X＝Y，即Y全部被X包含，此时建立的规则是确定的，规则的置信水平cf为1；

②当Y∩X≠Y，即Y全部不被X包含，此时建立的规则是不确定的，规则的置信水平为

（2）当Y∩X＝，Y和X不能建立规则。

知识的约简：

1.决策表的一致性

2.属性约简

3.分辨矩阵与分辨函数

§6.3.3可视化技术

可视化技术也称数据可视化，它旨在凭借计算机的强大信息处理能力以

您可能关注的文档

文档评论（0）

xiaobao + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

人工智能原理及MATLAB实现教案第6章数据挖掘.docx