- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商务智能实验7报告
《数据挖掘与商务智能实验》
实 验 报 告
实验题目:统计分析:逻辑回归
姓名:王俊
学号:201430850164
指导教师:张大斌
实验时间:2016.11.09
2016年 11月 10日
实验题纲:
实验目的
了解和熟悉SPSS Modeler及其相关知识。
掌握SPSS Modeler工具建立多项Logistic回归的方法。
学会运用SPSS Modeler进行多项Logistic回归的内容。
实验内容
本实验采用的数据源来自文件Brand.sav。该数据集的变量分别是不同性别(x2,1为男,2为女)、三种职业(x1)顾客选购三种品牌(x3)的数据。本实验主要探讨的例子说明多项Logistic回归的操作和意义。
实验步骤与结果
步骤1 构建多项式Logistic回归数据流
通过“Statistic文件”节点读入文件名为Brand.sav的数据。
数据流中添加“类型”节点。
在“建模”模块下选择“Logistic”节点连接在数据流的恰当位置。
步骤2 设置相关参数
右击“类型”节点,将x3设置为目标,其他保持不变,如图所示。
右击“Logistic”节点,在模型下,将使用分区数据勾选为“无”,采用的过程选择“多项式”,“多项式过程”中“方法”采用“进入法”,其他保持不变,如图所示。
步骤3 结果运行
本例的计算结果如图所示。
结果包含两个回归方程。
以第三种职业作为职业的参照水平,以女性作为性别的参照水平,研究对象是选择第一品牌的概率与第三品牌概率之比的自然对数。
当性别相同时,第一种职业的比数自然对数比第三种职业(参照水平)平均减少了1.315,第一种职业是第三种职业的0.269倍。第一种职业选择第一品牌的倾向不如第三种职业,且统计显著,第一种职业选择第一品牌的倾向性与第三种职业有显著差异。
当职业相同时,男性的比数自然对数比女性(参照水平)平均多0.747个单位,男性是女性的2.112倍。男性较女性更倾向选择第一品牌,且统计表明,男性选择第一品牌的倾向性与女性有显著差异。
实验分析与扩展练习
实验分析:
请总结分析下面几个问题:
结合本次试验数据结果,分析逻辑回归模型的二分类原理;
答:原理:
当本次实验选择的是第2个方程时,说说方程代表的意义;
意义:以第三种职业作为职业的参照水平,以女性作为性别的参照水平,研究对象是选择第一品牌的概率与第三品牌的概率之比的自然对数如图
采用二项Logistic回归会出现什么样的结果和问题。
出现的问题:
扩展训练
尝试改变挖掘算法的参数,来提高预测的准确率,在“挖掘模型确定性表”中,对挖掘模型进行验证。
更改图中所示数据:
参数改变如下;
左边为改变前,右边为改变后
五、结论与讨论(重点)
对于逻辑回归的理解:
虽然叫做“回归”,但是这个算法是用来解决分类问题的。回归与分类的区别在于:回归所预测的目标量的取值是连续的(例如房屋的价格);而分类所预测的目标变量的取值是离散的(例如判断邮件是否为垃圾邮件)。当然,为了便于理解,从二值分类(binary classification)开始,在这类分类问题中,y只能取0或1。更好的理解问题,先举个小例子:假如我们要制作一个垃圾邮件过滤系统,如果一封邮件是垃圾系统,y=1,否则y=0 。给定训练样本集,当然它们的特征和label都已知,我们就是要训练一个分类器,将它们分开。
1、逻辑回归模型
??回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。
??最简单的回归是线性回归,有如图1.a所示,X为数据点——肿瘤的大小,Y为观测值——是否是恶性肿瘤。通过构建线性回归模型,如hθ(x)所示,构建线性回归模型后,即可以根据肿瘤大小,预测是否为恶性肿瘤hθ(x)≥.05为恶性,hθ(x)0.5为良性。
图1 线性回归示例
??然而线性回归的鲁棒性很差,例如在图1.b的数据集上建立回归,因最右边噪点的存在,使回归模型在训练集上表现都很差。这主要是由于
文档评论(0)