- 1
- 0
- 约9.4千字
- 约 49页
- 2019-12-08 发布于广西
- 举报
数据挖掘概述 关联规则的发现 聚类分析 决策树分析 一、数据挖掘概述 数据挖掘常常与知识发现等同看待,对于数据挖掘(DM,Data Mining)和知识发现(KDD,Knowledge Discovery In Database)的确切定义一直在许多学者中相互混淆。有学者认为数据挖掘和知识发现是等价的概念,人工智能(AI)领域习惯称知识发现,而数据库领域习惯称数据挖掘 ,是从数据中发现隐含有用的信息或知识的技术。 1. 数据挖掘的定义 数据挖掘,就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的,提取的知识表示为概念、规则、规律、模式等形式。 数据挖掘作为知识发现过程的一个特定步骤,它是一系列技术及应用,或者说是对大容量数据及数据间关系进行考察和建模的方法集。它的目标是将大容量数据转化为有用的知识和信息。 一般情况下,数据挖掘的对象定义为数据库,而更广义的说法是,数据挖掘意味着在一些事实或观察数据的集合中寻找模式。数据挖掘的对象不仅是数据库,也可以是文件系统或其他任何组织在一起的数据集合。 2 知识发现过程 2. 知识发现过程 3. 数据挖掘的任务 3. 数据挖掘的任务 3. 数据挖掘的任务 3. 数据挖掘的任务 3. 数据挖掘的任务 4. 数据挖掘的应用 二、关联规则的发现 1. 关联规则的描述 2. 关联规则的定义 3. 关联规则的应用 3. 关联规则的应用 3. 关联规则的应用 3. 关联规则的应用 3. 关联规则的应用 3. 关联规则的应用 三、聚类 1. 聚类的定义 2. 聚类的运用 2. 聚类的运用 2. 聚类的运用 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 3. 聚类分析应用举例 四、决策树分析 1. 决策树分析的含义 1. 决策树分析的含义 2. ID3学习算法 2. ID3学习算法 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 3. ID3算法的学习过程和应用 利用上述Clustering聚类算法进行分类,初始分类共分三类,随意地将职工A、B、C归于一类,职工D、E、F归于一类,职工G、H归于一类,初始隶属度为:,聚类过程如表(二)所示: j=1,2, …c. 聚类过程如表(二)所示: 表(二) 分类迭代隶属度表 从上面迭代隶属度表中可以看出,当迭代到第七次时,隶属度已经收敛(ε=0.05),从上表得出分类结果为:第一类{B,E},第二类{A,C,F,H},第三类{D,G},于是,可以得出职工B、E属于优等,职工A、C、F、H属于一般,职工D、G欠佳的结论 。 返回 决策树(decision tree)学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较并根据不同的属性值判断从该结点向下的分支,在决策树的叶结点得到结论。所以从根到叶结点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。基于决策树的学习算法的一个最大的优点就是它在学习过程中不需要使用者了解很多背景知识(这也同时是它最大的缺点),只要训练例子能够用属性结论式的方式表达出来,就能使用该算法来学习。 一棵决策树的内部结点是属性或属性的集合,叶结点是所要学习划分的类。当经过一批训练实例集的训练产生一棵决策树,决策树可以根据属性的取值对一个未知实例集进行分类。使用决策树对实例进行分类的时候,由树根开始对该对象的属性逐渐测试其值,并且顺着分支向下走,直至到达某个叶结点,此叶结点代表的类即为该对象所处的类。 ID3算法以信息熵的下降速度作为选取测试属性的标准的。信息熵的下降也就是信息不确定性的下降。 (1)自信息量。在收到ai之前,收信者对信源发出ai的不确定性定义为信息符号ai的自信息量I(ai)。即I(ai)=-log p(ai),其中p(ai)为信源发出ai的概率。 (2)信息熵。自信息量只能反映符号的不确定性,而信息熵可以用来度量整个信源X整体的不确定性,定义如下: (3)条件熵。如果信源X与随机变量Y不是相互独立的,收信者收到信息Y。那么,用条件熵H(X/Y)
您可能关注的文档
- 5年级语文-精选课件(公开).ppt
- 5苹果里的五角星2973754-精选课件(公开).ppt
- 5外汇市场与外汇交易实务-精选课件(公开).ppt
- 5应用二元一次方程组——里程碑上的数演示文稿-精选课件(公开).ppt
- 06彩色数字电视基础-精选课件(公开).ppt
- 6、墨子-精选课件(公开).ppt
- 6冬阳·童年·骆驼队2-精选课件(公开).ppt
- 6果树疏果和果实套袋-精选课件(公开).ppt
- 6整数规划与分配问题-精选课件(公开).ppt
- 07中文工具书-年鉴手册-精选课件(公开).ppt
- 25-26学年政治(部编版)选择性必修第二册课件:第1单元 周清1 民法中的人身权及财产权.pptx
- 25-26学年政治(部编版)选择性必修第二册课件:1.4.1 权利保障 于法有据.pptx
- 2025北京丰台区高二(上)期中地理(A卷)含答案.docx
- 2025北京三帆中学初三(上)开学考英语试题含答案.docx
- 2025北京一零一中初三9月月考语文试题含答案.docx
- 2025北京海淀区初三(上)期中道法试题含答案.docx
- 2025北京丰台区高一(上)期中政治(A卷)含答案.docx
- 25-26学年政治统编版必修4课件:3.3 唯物辩证法的实质与核心.pptx
- 25-26学年政治统编版必修4课件:7.2 正确认识中华传统文化.pptx
- 湖北省部分高中2026届高三上学期二模联考 历史试卷.docx
最近下载
- 青岛版五四制一年级上册数学期末试题.pdf VIP
- 城市公园管理与维护规范.docx VIP
- 精品解析:2022-2023学年山东省青岛市城阳区青岛版四年级上册期末质量抽测数学试卷(原卷版).docx VIP
- 浙江省杭州市拱墅区2024-2025学年四年级上学期期末考试数学试题.docx VIP
- 5《和大家在一起》第二课时 (教学设计) 一年级道德与法治下册(统编版2025).pdf VIP
- 农业社会化服务体系.ppt VIP
- 5《和大家在一起》第一课时 (教学设计) 一年级道德与法治下册(统编版2025).docx VIP
- 2023年四川高级政工师题库 .pdf VIP
- 中国地理《中国的河流-长江》.ppt VIP
- 上海市闵行区2024-2025学年高一上学期期末考试生物试卷含答案.docx VIP
原创力文档

文档评论(0)