- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
从回归分析到数据挖掘
关键词:回归分析 数据挖据 质量管理 JMP
回归分析是研究两种或两种以上变量之间相互依赖的定量关系的统计分析方法,在很多行业都有广泛的应用。无论是银行、保险、电信等服务行业的业务分析人员在进行数据库营销、欺诈风险侦测,还是半导体、电子、化工、医药、钢铁等制造行业的研发技术人员在进行新产品实验设计与分析、流程优化与过程监控,或者更广义地说,不同类型的企业在开展质量管理和六西格玛项目时,都常常会用到回归分析。
回归分析可以帮助我们判断哪些因素的影响是显著的,哪些因素的影响是不显著的,还可以利用求得的回归方程进行预测和控制。但是,稍微对回归模型的有效程度和预测精度有一定要求时,我们就会发现回归分析有一些先天性的不足和隐患:
1. 缺少用实际数据验证模型有效性的环节,经常听到的抱怨是:模型看上去很美,但是一到应用环节就发现预测不准确;
2. 建模手段单一,不能多角度地考虑问题,从而更好地拟合数据;
3. 无法系统地比较通过不同方法得到的不同模型,更谈不上在众多候选模型中甄选出一个相对最佳的模型。
这时,想要消除上述隐患,突破工具瓶颈的理想办法就是从“回归分析”的层次上升到“数据挖掘”的层次。
数据挖掘是一个更大的数据分析概念,主要指从大量的企业数据中揭示出隐含的、先前未知的并有潜在价值的信息的整个过程。从统计技术层面上讲,数据挖掘至少具有三大特征:
1. 强调分析建模之前的数据源划分,一般需要将所有原始数据分为模型训练数据training data、模型验证数据validation data、模型测试数据test data三类。从而从源头上确保了由此求得的模型是经得起现实复杂情况的严峻考验。
2. 提供了丰富的建模手段,除了基于最小二乘法、逐步法和Logistic法等传统的回归分析之外,还包括很多新颖又实用的建模技术,如:决策树(Decision Tree)、神经网络(Neural Network)、关联规则(Association Rule)、支持向量机(Support Vector Machine)、文本挖掘(Text Mining)等。这使我们在遇到回归分析失效的情况下,依然具备解决问题的能力。
3.“模型比较(Model Comparison)”是数据挖掘后期的过程中必不可少的一个环节,这样一来,我们就可以科学、客观地从不同的候选模型中找到最理想的模型来做最精准的预测分析,将预测误差降低到最低。
显然,数据挖掘的这三个特征有效地弥补了回归分析的不足,为我们的建模预测工作奠定了扎实的基础。下面用一个真实案例来说明从回归分析到数据挖掘的实际应用,出于数据安全性的考虑,核心数据(包括变量名称)已做了相应的编码处理。
某知名钢铁公司的研发部门在一个构建结构钢端淬曲线预测模型的项目中,先用用SAS公司面向普通工程师和科学家开发的交互式可视化统计发现软件JMP中的逐步回归做了一个预测模型(见下图)。
从分析报告上来看,这个预测模型还是不错的。但在模型的推广过程中,多次发现预测误差很大,甚至严重动摇了技术人员应用统计建模的信心。所幸在权威咨询机构的指导下,发现造成模型预测失误的主要原因是模型过度拟合,包含了很多不必要拟合的噪声信息。项目成员重新思考了技术攻关中需要用到的方法论,最终决定升级到高级版JMP Pro,没有多做一次现场实验,没有申请任何额外预算,却显著改善了模型的预测效果,达到了预期效果。
从技术细节上来看,项目后期与前期的不同之处也恰巧体现了前面所介绍的数据挖掘的三大特征,即:
第一,没有囫囵吞枣地把所有数据全都用来构建模型,而是有计划地按照一定比例将所有数据分为训练数据、验证数据、测试数据三类,各类数据各司其职,确保由此产生的模型在生产阶段的有效性。
第二,开拓思路,有机地运用除了回归分析之外的多种数据挖掘建模工具,如决策树、神经网络,以及其衍生工具(如随机森林Bootstrap Forest、提升树Boosted Tree等),避免了由于单一方法的生搬硬套而导致的建模错误。
第三,先松后紧,整合之前求得的各个候选模型,将科学严谨的统计量化指标与实际业务经验相结合,挑选出整体上最合适的预测模型,体现了“博采众长,取长补短”的建模理念。
总之,“从回归分析到数据挖掘”是企业在精细化管理发展到一定阶段后必定会遇到的一个问题。当然,相对于传统的回归分析,数据挖掘会显得相对复杂一些。但是,融合先进算法而关注界面友好的现代化统计分析软件(如案例中用到的JMP Pro软件),已经大大降低了数据挖掘的技术门槛,使得无论是科班出身的统计学家,还是没有统计学功底的普通技术人员,都能快速上手,真正地数据中挖掘出对企业运营有益的信息。
您可能关注的文档
最近下载
- 3.3《人间词话六则》课件-中职高二语文(高教版2024拓展模块上册).pptx
- 《人工智能应用导论》PPT全套完整教学课件.pptx VIP
- 体育课堂中团队合作游戏对团队意识培养的实践研究教学研究课题报告.docx
- 人工智能导论PPT全套课件.pptx VIP
- 3.2《文学作为语言艺术的独特地位》课件-中职高二语文(高教版2024拓展模块上册).pptx
- 医务科管理制度-标准版.doc VIP
- 初中英语阅读——篇章结构强化练习(附答案).pdf VIP
- 初中英语过去时强化练习(附答案).docx VIP
- 形容词和副词的比较级和最高级及专项练习(精品).doc VIP
- 2025年新版人教版四年级上册英语 四上Unit 5 The weather and us 单元整体教学设计.pdf VIP
文档评论(0)