大数据应用基础-分类算法.ppt

下载文档 降价啦

9
0
约9.25千字
约 115页
2019-05-15 发布于湖北
举报
版权申诉
保障服务

大数据应用基础-分类算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

KNN 算法的最大特点它跟其他分类算法不同：其他算法都是先根据预分类的训练集来训练模型，然后抛开训练集进行预测。而KNN的训练集就是模型本身。因此，选择正确的训练集是KNN的最重要一步。它要求训练集中各个分类的数量要体现实际当中这些类别出现的概率。例如，在欺诈检测中，我们不能因为类别不平衡，就对非欺诈实例做“欠抽样”。在SPSS Modeler中使用KNN 算法主要有两个参数需要设定：距离函数。邻居的远近是按照距离函数计算的。SPSS有两种距离计算方式供选择。邻居的数量。KNN中的K字母的含义就是邻居的数量。具体设置方式有两种：设置一个固定的K值由算法根据验证集来自动决定K值朴素贝叶斯分类朴素贝叶斯分类（ Na?ve Bayesian Model）是基于贝叶斯条件概率定理的概率分类器。这个算法比较简单。最大特点：该模型假设特征之间相互独立、彼此不相关。这就是它“朴素”之处。这也是很多人对它最担心之处。人们往往先入为主地认为，其根本性假设都不对，那么效果一定好不到哪里去。但事实是，它在很多应用中表现很好。朴素贝叶斯分类的步骤然后用一个简单的贝叶斯公式，对于某个特征，算出实例的后验概率（也叫条件概率）。只需把各个特征的后验概率相乘，就得到一个类的总概率。选择具有最大后验概率的类作为该实例所属的类。朴素贝叶斯分类的原理朴素贝叶斯模型会通过邮件中的诸多垃圾邮件标志物来判断邮件是否是垃圾邮件。这些标志物可能是词汇（例如是否有货币符号），也可能是其他特征（例如是否群发）。一封邮件需要多高的概率才值得贴上垃圾邮件的标签？这取决于三个信息： Pr(垃圾邮件标志物|垃圾邮件)。垃圾邮件中包含这个标志物的概率，即这个标志物是否经常出现在垃圾邮件中。如果这个标志物在垃圾邮件中出现并不频繁，那么它显然不是个好的标志物。 Pr(垃圾邮件)。一封垃圾邮件出现的基本概率，即先验概率。如果垃圾邮件经常出现，那么显然我们正在考察的这封邮件也更有可能是垃圾邮件。 Pr(垃圾邮件标志物)。即标志物出现的概率。如果标志物在很多邮件、甚至所有邮件中都出现，那么它就不是个好的标志物。根据这三个信息，可以得到后验概率：即在出现垃圾邮件标志物的前提下，邮件为垃圾邮件的可能性。具体公式具体公式为什么独立性假设是可行的？只要正确类的后验概率比其他类要高就可以得到正确的分类。所以即使概率估计不精确，都不影响正确做出分类。在数据预处理环节，通常会进行变量选择，把对于高度相关的变量只保留其中一个，剩下的变量之间就接近于相互独立了。朴素贝叶斯学习的应用在文本分类中被广泛使用。最典型的应用是垃圾邮件过滤其他还有自动语言识别等。它很适合于规模巨大的邮件数据集。贝叶斯网络在上述朴素贝叶斯分类中，如果数据集中的变量相互之间不独立，那么预测效果会很差。贝叶斯网络则放宽了变量之间相互独立这一假设。它对于解决变量之间有关联性的问题很有优势。它把贝叶斯原理和图论相结合。但是，在抑制了独立性假设的同时，也容易增加计算难度。组合方法组合方法（Ensemble methods）。常用术语：Boosting、AdaBoost、Random Forest(随机森林)。组合分类器由多个成员分类器组合而成，大家“投票”决定分类结果。它把成员分类器叫做弱分类器。虽然每个弱分类器分类的不那么准确，但是如果把多个弱分类器组合起来可以得到相当不错的结果。组合分类分类器往往比它的成员分类器更准确，而且分类结果更稳定。此类方法类似于投资或投票，“不把鸡蛋放在一个篮子”。组合方法的种类组合方法主要包括：bagging, random forest, 和boosting。袋装（Bagging）的每个弱分类器的组合权重是相等。随机森林（Random forest）是建立在Bagging基础上的一种方法。第一个实用的提升（Boosting）算法是AdaBoost。组合方法——提升算法在投票中，我们希望让各选民的意见有一定的多样性。组合方法——袋装袋装（Bagging）的每个弱分类器的组合权重是相等。这就类似于选举中每张选票有相同的权重。而且，我们尽可能让每个选民根据不同的信息来进行投票。具体表现为：将数据集中的数据进行多次抽样，每次用抽样出来的子数据集来训练单个弱分类器，最后对历次训练出的各分类器的结果进行投票，得到最终结果。组合方法——随机森林 Random forest（随机森林）：随机森林是把Bagging与随机属性选择结合起来的方法。这种组合分类器中的每个分类器都是一棵决策树，因此分类器的集合就是一个“森林”。组合方法——随机森林的步骤和Bagging类似之处在于，每个决策树用