《数据挖掘导论》教材配套教学——熟悉数据挖掘.ppt

《数据挖掘导论》教材配套教学——熟悉数据挖掘.ppt

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
【例1.6】 使用Weka分析表1.1感冒类型诊断数据集中数据的关联关系。 实验步骤 1、准备数据 2、加载和预处理数据 3、关联分析 4、解释和评估结果 * 第*页,共65页 图1.20 感冒类型诊断数据集的关联分析结果 数据挖掘是建立模型,不是魔术! 人类的本性要求我们对周围的世界进行归纳和分类,基于这个原因,模型建立是个 自然的过程,有趣而富有意义! * * 1.5.4 模型应用 数据挖掘的终极目标。 可以应用分类模型解决如例1.1中的疾病诊断问题; 可以应用聚类模型解决对顾客的分类,找出不同类中顾客的行为特征,从而为诸如促销活动等提供决策支持; 可以通过应用关联分析模型,找出顾客购买的商品之间的关联关系,对于货架摆放、商品促销等提供决策支持。 * 第*页,共65页 1.6 数据挖掘的作用 数据挖掘的作用 两大类 建立有指导的学习模型和无指导聚类模型。 因变量(Dependent Variables) 有指导的学习模型中的输出属性的值依赖于输入属性的取值,所以输出属性又被称为因变量 自变量(Independent Variables) 相对的,输入属性被称为自变量 * 第*页,共65页 数据挖掘的作用 * 第*页,共65页 图1.4数据挖掘的作用 1.7 数据挖掘技术 数据挖掘技术(Data Mining Technique) 对一组数据应用一种数据挖掘方法。 一般由一个数据挖掘算法和一个相关的知识结构,如树结构或规则来定义的。 * 第*页,共65页 1.7.1 神经网络(Neural Network) 一种具有统计特性的数学模型。 创建思想源于人类神经网络的结构、功能和运行过程。 试图模拟人脑功能来完成学习。 已经成功地应用于多个领域的问题中,是非常流行的数据挖掘技术。 可以建立有指导学习模型和无指导聚类模型。 输入属性必须是数值的,输出属性可以是数值的也可以是分类的。 * 第*页,共65页 前馈(Feed-Forward)神经网 常用的有指导的学习模型。 全连接 每一层的每个节点都与其下一层的所有节点相连接,而同层节点之间不相连。 每个网络连接上都具有权重值,如w1j、w2j、w3j。 * 第*页,共65页 图1.5 三层全连接前馈神经网 建立神经网络模型的两个阶段 第一个阶段——学习训练阶段 将每个实例的输入属性值提交给输入层节点。神经网络使用输入值和网络连接权重值来计算每个实例的输出。将每个实例的输出和希望的网络输出进行比较,希望值和计算输出值之间的误差通过修改连接权值传回网络。当达到一定的迭代次数后或当网络收敛到一个预定的最低错误率时,训练终止。 第二个阶段——检验阶段 固定网络权重,将模型用于计算新实例的输出值。 * 第*页,共65页 1.7.2 回归分析(Regression Analysis) 一种统计分析方法。 可以用来确定两个或两个以上变量之间的定量的依赖关系,并建立一个数学方程作为数学模型,来概化一组数值数据,进而进行数值数据的估值和预测。 应用非常广泛。 * 第*页,共65页 办公楼数据集 序号 Space(x1) Offices(x2) Entrances(x3) Age(x4) Value 1 2310 2 2 20 142000 2 2333 2 2 12 144000 3 2356 3 1.5 33 151000 4 2379 3 2 43 150000 5 2402 2 3 53 139000 6 2425 4 2 23 169000 7 2448 2 1.5 99 126000 8 2471 2 2 34 142900 9 2494 3 3 23 163000 10 2517 4 4 55 169000 11 2540 2 3 22 149000 * 第*页,共65页 表1.3 办公楼数据集 回归模型 * 第*页,共65页 y = 27.64×2500 + 12 529.77×3 + 2553.21×2?234.24×25 + 52 317.83 = 158 257.56 使用回归方程预估办公楼的价值。 设有一座未知价值的办公楼,面积为 2500、3个办公室、2 个入口,已使用 25 年,则其估计价值计算所得,为158 257.56。 1.7.3 关联分析 一种关联规则(Association Rule)挖掘技术,用于发现数据中属性之间的有价值的联系。 关联规则可以有多个输出属性,一个规则的输出属性可以在另一规则中作为输入属性。 关联分析用来发现潜在的令人感兴趣的商品购买组合,是购物篮分析的常用技术。 关联分析有多种算法,其中最著名的为Agrawal等人于1993年提出的Apriori关联分析算法。 Apriori算法不支持数值型数据,在使用该算法之前,需要进行必要的数据变换。

文档评论(0)

smartxiaohuli + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档