- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
回归和神经网络
分析目标
零售行业拥有大量消费者特征和行为数据,通过对数据进行探索挖掘得到的
信息,可以帮助企业针对特定的客户进行营销,用最少的成本取得最佳的收益。分
类决策树模型是一种对实例进行分类的树形结构。决策树学习算法包含特征选择、
决策树的生成与剪枝过程。开始时,构建根节点,选择最优特征,该特征有几种值
就分割为几个子集,每个子集分别递归调用此方法,返回节点,返回的节点就是上
一层的子节点。直到数据集为空,或者数据集只有一维特征为止。 logistic 回归
又称 logistic 回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾
病自动诊断,经济预测等领域。神经网络是一种模仿动物神经网络行为特征,进行
分布式并行信息处理的算法数学模型,这种网络依靠系统的复杂程度,通过调整内
部大量节点之间相互连接的关系,从而达到处理信息的目的。本文旨在通过建立决
策树模型、逻辑回归模型、神经网络模型对企业的 Organics 数据进行分析,通过
划分训练集和验证集判断模型拟合优劣,最终选择最优模型来得到购买 Organics
的消费者的特征,从而为企业提供精准营销的客户。
数据情况
1. 添加数据源
我们发现 AGEGRP1与 AGEGRP2与 Age 内容相似,只是用不同形式表示年龄,
因此选择拒绝这两组变量;同时, Number of Organic Products Purchased 代表
购买的有机产品的数量,而我们分析的目的是对消费者是否购买有机产品进行预
测,因此该变量相关性较弱,可以拒绝;最后,我们将 Organics Purchased? 设为
目标变量进行分析。
2. 数据集右键探索
从图中可以看到,该数据集共有 18 个变量, 22223 个观测。
从样本统计量中可以看到,大部分变量缺失值都比较严重,后面应该进行相
应的补缺处理。
上图显示了数据集的前面 15 条数据。
从所有变量的频数统计图中可以看到,除了已经拒绝的变量,其余大部分呈
现正态分布,只有变量 BILL 和 LITME变量呈现偏态分布,因此后期数据预处理时
应该对这两个变量进行转化处理。
3. 统计探索
从目标变量的频数分布图可以看到购买人数占比大概是 25%,而不购买的人
数占比大概是 75%,说明我们的样本还是有意义的。
数据预处理
1. 数据分区
设置训练集比例 70%,验证集比例 30%。经过上次决策树实验得出 70%30%比
例较好,因此本次建模直接这样分区。
分区结果如上
2. 转换变量
根据以上数据探索分析,将 BILL 变量转换为对数,将 LTIME变量转换为对
数。
转换结果如上,将 BILL 和 LTIME变量转换为对数。
3. 替换变量
分类变量 TV_REG明显有多个重复情况,但是用不同名称表示,因此我们将部
分变量值进行替换,将数据规约成较为简洁的结果。
4. 补缺
模型建立
所有模型的流程图如下:
模型一:默认回归
查看 - 结果
从结果看,默认回归模型选择的变量太多,并且将 P值较大的变量也选入了
模型中,这种模型并不能很好地反映出现实情况,因此我们将改进算法,设置回归
属性参数,从而得出更好的回归模型。
模型二:逐步回归
查看 - 结果
设 IMP_GENDER_F为 X1,IMP_GENDER_M为 X2,IMP_REP_AFFL为 X3,
IMP_REP_AGE为 X4
则 logistic 方程如下:
模型三:自动神经
查看 - 权重(最终)
神经网络图
您可能关注的文档
最近下载
- 当代文学课前展示残雪.pptx VIP
- GBT .-电梯安全要求 第部分:满足电梯基本安全要求的安全参数.pptx VIP
- GB50278-2010 起重设备安装工程施工及验收规范.pdf VIP
- 2025年中国石英纤维行业市场行情监测及发展趋向研判报告.docx
- 卫生专业技术资格考试放射医学(中级344)专业实践能力新考纲精练试题精析.docx VIP
- 土源性线虫和食源性寄生虫检测方法.pptx VIP
- 产业梯度与区域产业兴替——以顺德蚕丝业为例.pdf VIP
- 在线网课学习课堂《学术交流英语(哈工 )》单元测试考核答案.pdf VIP
- 灌注桩钢筋笼自动计算套用表格.xls VIP
- 时代少年团介绍最新完整版本.pptx VIP
原创力文档


文档评论(0)