大数据应用基础分类算法.pptVIP

下载本文档

2
0
约1.06万字
约 116页
2022-07-28 发布于重庆
举报
版权申诉

大数据应用基础分类算法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

KNN 算法 K 最近邻（K-Nearest Neighbor，KNN）分类算法可以说是整个数据挖掘分类技术中最简单的方法。简言之，它是找K个最近邻居的方法。由这些邻居投票决定新的数据属于哪个类。 KNN 算法的核心思想是如果一个样本在特征空间中的K个最相似的样本中的大多数属于某一个类别，则该样本也属于这个类别，并具有这个类别上样本的特性。 KNN在确定分类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 * 第六十三页，共一百一十六页。 KNN 算法的最大特点它跟其他分类算法不同：其他算法都是先根据预分类的训练集来训练模型，然后抛开训练集进行预测。而KNN的训练集就是模型本身。因此，选择正确的训练集是KNN的最重要一步。它要求训练集中各个分类的数量要体现实际当中这些类别出现的概率。例如，在欺诈检测中，我们不能因为类别不平衡，就对非欺诈实例做“欠抽样”。 * 第六十四页，共一百一十六页。在SPSS Modeler中使用KNN 算法主要有两个参数需要设定：距离函数。邻居的远近是按照距离函数计算的。SPSS有两种距离计算方式供选择。邻居的数量。KNN中的K字母的含义就是邻居的数量。具体设置方式有两种：设置一个固定的K值由算法根据验证集来自动决定K值 * 第六十五页，共一百一十六页。朴素贝叶斯分类朴素贝叶斯分类（ Na?ve Bayesian Model）是基于贝叶斯条件概率定理的概率分类器。这个算法比较简单。最大特点：该模型假设特征之间相互独立、彼此不相关。这就是它“朴素”之处。这也是很多人对它最担心之处。人们往往先入为主地认为，其根本性假设都不对，那么效果一定好不到哪里去。但事实是，它在很多应用中表现很好。 * 第六十六页，共一百一十六页。朴素贝叶斯分类的步骤然后用一个简单的贝叶斯公式，对于某个特征，算出实例的后验概率（也叫条件概率）。只需把各个特征的后验概率相乘，就得到一个类的总概率。选择具有最大后验概率的类作为该实例所属的类。 * 第六十七页，共一百一十六页。朴素贝叶斯分类的原理朴素贝叶斯模型会通过邮件中的诸多垃圾邮件标志物来判断邮件是否是垃圾邮件。这些标志物可能是词汇（例如是否有货币符号），也可能是其他特征（例如是否群发）。一封邮件需要多高的概率才值得贴上垃圾邮件的标签？这取决于三个信息： * 第六十八页，共一百一十六页。 Pr(垃圾邮件标志物|垃圾邮件)。垃圾邮件中包含这个标志物的概率，即这个标志物是否经常出现在垃圾邮件中。如果这个标志物在垃圾邮件中出现并不频繁，那么它显然不是个好的标志物。 Pr(垃圾邮件)。一封垃圾邮件出现的基本概率，即先验概率。如果垃圾邮件经常出现，那么显然我们正在考察的这封邮件也更有可能是垃圾邮件。 Pr(垃圾邮件标志物)。即标志物出现的概率。如果标志物在很多邮件、甚至所有邮件中都出现，那么它就不是个好的标志物。根据这三个信息，可以得到后验概率：即在出现垃圾邮件标志物的前提下，邮件为垃圾邮件的可能性。 * 第六十九页，共一百一十六页。具体公式 * 第七十页，共一百一十六页。具体公式 * 第七十一页，共一百一十六页。为什么独立性假设是可行的？只要正确类的后验概率比其他类要高就可以得到正确的分类。所以即使概率估计不精确，都不影响正确做出分类。在数据预处理环节，通常会进行变量选择，把对于高度相关的变量只保留其中一个，剩下的变量之间就接近于相互独立了。 * 第七十二页，共一百一十六页。朴素贝叶斯学习的应用在文本分类中被广泛使用。最典型的应用是垃圾邮件过滤其他还有自动语言识别等。它很适合于规模巨大的邮件数据集。 * 第七十三页，共一百一十六页。贝叶斯网络在上述朴素贝叶斯分类中，如果数据集中的变量相互之间不独立，那么预测效果会很差。贝叶斯网络则放宽了变量之间相互独立这一假设。它对于解决变量之间有关联性的问题很有优势。它把贝叶斯原理和图论相结合。但是，在抑制了独立性假设的同时，也容易增加计算难度。 * 第七十四页，共一百一十六页。组合方法组合方法（Ensemble methods）。常用术语：Boosting、AdaBoost、Random Forest(随机森林)。组合分类器由多个成员分类器组合而成，大家“投票”决定分类结果。它把成员分类器叫做弱分类器。虽然每个弱分类器分类的不那么准确，但是如果把多个弱分类器组合起来可以得到相当不错的结果。组合分类分类器往往比它的成员分类器更准确，而且分类结果更稳定。此类方法类似于投资或投票，“不把鸡蛋放在一个篮子”。 * 第七十五页，共一百一十六页。组合方法的种类组合方法主要包括：bagging, random forest, 和boo