网站大量收购独家精品文档,联系QQ:2885784924

《Python 数据挖掘实践》课件_第5章 挖掘建模算法.pptx

《Python 数据挖掘实践》课件_第5章 挖掘建模算法.pptx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共89页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

经过数据探索与数据预处理部分,得到了可以直接建模的数据。根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模式、偏差检测、智能推荐等模型,帮助企业提取数据中蕴含的商业价值,提高企业的竞争力。挖掘建模

关联规则31分类与预测4聚类分析2时序模式目录5离群点检测6小结

就餐饮企业而言,经常会碰到这样的问题:1)如何基于菜品历史销售情况,以及节假日、气候和竞争对手等影响因素,对菜品销量进行趋势预测?2)如何预测在未来一段时间哪些顾客会流失,哪些顾客最有可能会成为VIP客户?3)如何预测一种新产品的销售量,以及在哪种类型的客户中会较受欢迎?除此之外,餐厅经理需要通过数据分析来帮助他了解具有某些特征的顾客的消费习惯;餐饮企业老板希望知道下个月的销售收入,原材料采购需要投入多少,这些都是分类与预测的例子。分类与预测

分类和预测是预测问题的两种主要类型。分类主要是预测分类标号(离散、无序的),而预测主要是建立连续值函数模型,预测给定自变量的条件下因变量的值分类与预测——实现过程

分类:指将数据映射到预先定义好的群组或类。因为在分析测试数据之前,类别就已经确定了,所以分类通常被称为有监督的学习。分类算法要求基于数据属性值来定义类别。分类就是构造一个分类模型,把具有某些特征的数据项映射到某个给定的类别上。下图是一个三分类问题:预测:确定两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。分类与预测——实现过程

分类和预测的实现过程类似,以分类模型为例,实现过程如图:分类与预测——实现过程

分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则;第二步是分类步,先用已知的检验样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测。预测模型的实现也有两步,类似于分类模型,第一步是通过训练集建立预测属性(数值型的)的函数模型,第二步是预测,模型通过检验后再进行预测或控制。分类与预测——实现过程

分类与预测——实现过程

主要分类与预测算法简介:分类与预测——常用的分类与预测算法算法名称算法描述回归分析回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量。关系的最常用的统计学方法。包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。决策树它采用自顶向下的递归方式,在决策树的内部结点进行属性值的比较,并根据不同的属性值从该结点向下分支,叶结点是要学习划分的类。人工神经网络一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型。贝叶斯网络贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。支持向量机SVM支持向量机根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力。

回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从19世纪初高斯提出最小二乘估计算起,回归分析的历史已有200多年。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如下:分类与预测——回归分析

回归分析研究的范围大致如下:分类与预测——回归分析

在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的。常用的回归模型如下:分类与预测——回归分析

常用的回归模型如下:分类与预测——回归分析回归模型适用条件算法描述线性回归因变量与自变量是线性关系对一个或多个自变量和因变量之间的线性关系进行建模,可用最小二乘法求解模型系数。非线性回归因变量与自变量之间不都是线性关系对一个或多个自变量和因变量之间的非线性关系进行建模。如果非线性关系可以通过简单的函数变换转化成线性关系,用线性回归的思想求解;如果不能转化,用非线性最小二乘方法求解。Logistic回归因变量的一般有1-0(是否)两种取值是广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0和1之间,表示取值为1的概率。岭回归参与建模的自变量之间具有多重共线性是一种改进最小二乘估计的方法。主成分回归参与建模的自变量之间具有多重共线性主成分回归是根据主成分分析的思想提出来的,是对最小二乘法的一种改进,它是参数估计的一种有偏估计。可以消除自变量之间的多重共线性。

线性回归模型是相对简单的回归模型,但是通常因变量和自变量之间呈现某种曲线关系,就要建立非线性回归模型。Logistic回归属于概率型非线性回归,分为二分类和多分类的回归模型。对于二分类的Logistic回

您可能关注的文档

文档评论(0)

kd8w + 关注
实名认证
内容提供者

kd8w

1亿VIP精品文档

相关文档