数据挖掘与R语言工具优势.docx

下载文档 降价啦

5
0
约3.54千字
约 10页
2017-05-27 发布于湖北
举报
版权申诉
保障服务

数据挖掘与R语言工具优势.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘与R语言工具优势课案

数据挖掘概述数据挖掘是应用统计学、机器学习和模式识别等学科的知识，从数据中发现有用的、有效的、未知的并且可以理解的信息的一项技术。简言之，数据挖掘技术就是从大量的历史数据中总结原因，发现事物的本质，把握事物发展的趋势。数据挖掘常用模型有了数据，我们要做的就是寻找合适的模型。数据挖掘的目的或者是理解产生数据的机制，或者是预测。根究不同的目的，我们可以将模型分为描述性模型与预测性模型。其中描述性模型是为了揭示蕴含在历史数据中的规律，属于无监督模型；预测性模型是对未来时间的预测，属于监督模型。模型图示原理应用场景相关性分析探索现象之间关系的密切程度和表达形式。研究设备发生的缺陷类型与投运年限的相关性。主成分分析将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。用于招投标专家打分数据中各技术要素明细指标中的降维研究。因子分析因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系，因子分析可以使用旋转技术帮助解释因子，在解释方面更加有优势。因子分析将招投标中相关的各技术要素指分解为因子的线性组合，构造因子模型。典型相关分析典型相关分析是分析两组随机变量间线性密切程度的统计方法，是两变量间线性相关分析的扩展。运用在生产领域中的设备类型与缺陷类型间两组变量间的线性关系研究。对应分析利用因子分析原理，同时将变量与样本反映在一张图上。同时将样本（设备类别）与变量（缺陷原因）在一张图上展示，研究之间的相似性。聚类分析通过分析事物的内在特点和规律，并根据相似性原则对事物进行分组。通过不同的聚类方法对研究对象进行聚类，并以图形化将结果展示出来。时间序列从历史数据中，总结事物发展的规律，把握未来发展的趋势。通过时间序列模型，了解缺陷随时间变化的发展趋势。线性回归确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。建立缺陷供电局和设备类型间的线性模型，对未来缺陷数进行预测。Logistic回归Logistic回归只能处理两类分类问题，是一种线性分类器，实现简单，但容易欠拟合，一般精确度不太高。应用在设备是否发生缺陷的业务场景中。生存分析对管理对象的生存时间进行分析和推断，研究生存时间和结局与众多影响因素间关系及其程度大小的方法。研究设备在投运后开始发生缺陷的危险时刻。并对统计区间内的设备是否发生缺陷进行研究。关联规则从大量数据中发现潜在的对象之间的同时出现的关系。A现象出现B现象也会同时发生的情况。研究设备在不同情况下会发生严重和紧急缺陷的频繁程度和关系。序列模式挖掘对代表事件之间存在某种序列关系的数据进行相对时间或者其他模式出现频率高的模式挖掘。用在研究某个单体设备随着时间变化而出现不同缺陷类型的模式挖掘。决策树根据数据规则的生成过程，用倒立的树形图将结果展示出来。将影响缺陷类型的供电局、供应商、设备间的关系用树形图展示出来。贝叶斯分类是一类利用概率统计知识进行分类的算法。该方法简单（利用先验概率）、分类准确性高、速度快。对历史缺陷数据的严重等级进行贝叶斯分类，计算下次缺陷发生出现不同等级的概率来进行分类。GBDT（MART）迭代决策树是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的结论累加起来做最终答案。GBDT几乎可应用与所有的回归问题（线性/非线性），亦可应用与二分类问题。KNN算法（最近临近法）KNN算法是机器学习里面比较简单的一个分类算法：计算一个点A与其他所有点之间的距离，然后将A点分配到所属类别中比例最大的类别中。用于生成领域、招投标领域等分类问题的研究。Bagging回归利用不断放回抽样的简单组合方法实现对简单决策树的改良，提高精确性。利用机器学习中的再抽样组合算法建立缺陷预测模型。随机森林另一种组合方式，随机产生大量决策树，再进行投票分类。利用抽样组合，对结果进行等权投票的算法建立缺陷预测模型。神经网络利用模拟神经网络的自我学习系统进行模型拟合，有效地解决很复杂的有大量相互相关变量的分类和回归问题，但对维度多、样本量小的数据模拟效果不好。利用自我学习的机器学习算法建立缺陷预测模型。支持向量机SVM核心是寻找最大间隔分类超平面、引入核方法极大提高对非线性问题的处理能力。对一些系统收集数据时间不长、维度复杂的数据进行研究。文本挖掘指从文本数据中抽取有价值的信息和知识的计算机处理技术。对大量的缺陷描述的文本信息进行挖掘，迅速找出有价值的关联信息。社会网络来源于数学的图论，目前被广泛应用于社会学、经济学、管理学领域。应用到生产领域的缺陷数据中，进行设备缺陷的社会网络分析。推荐系统推荐系统的实现主要分析两个方面：基于内容（用户或者物品基本信息的相似度）和协同滤波（基于历史数据，过滤复杂的、难以表达的概念）的实现。基于营销数据库中的用户信息和用电情况进行针对性营销。LDA（主题模型）LDA是一种非监