LINUX概述全套课件.ppt

下载文档 降价啦

19
0
约 333页
2022-04-29 发布于辽宁
举报
版权申诉
保障服务

LINUX概述全套课件.ppt

1、本文档共333页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

全套课件完整版课件ppt整套电子教案全书电子教案课件教程教学课件汇总汇集

import org.apache.spark.ml.feature.{IndexToString, StringIndexer} val df = spark.createDataFrame( Seq((0, spark), (1, hadoop), (2, flink), (3, spark), (4, hadoop), (5, spark)) ).toDF(id, category) val indexer = new StringIndexer() .setInputCol(category) .setOutputCol(categoryIndex) .fit(df) val indexed = indexer.transform(df) //生成一个IndexToString实例，其输入列为categoryIndex，输出列为originalCategory val converter = new IndexToString() .setInputCol(categoryIndex) .setOutputCol(originalCategory) //使用converter再将indexed的索引标签列还原为原始的字符串 val converted = converter.transform(indexed) converted.show() 2.2特征转换 Spark分类与聚类任务3 根据特征数据进行分类或聚类。 Spark ML库常用的分类算法与聚类算法。 spark.ml包中朴素贝叶斯分类及K-means聚类。（1）朴素贝叶斯分类的实例为了便于理解朴素贝叶斯分类，在讲解其理论之前，先看如下示例：假设某医药门诊接待了6个病人，其症状、职业、确诊所患的疾病如下所示：现在又来了第七个病人，是一个打喷嚏的建筑工人，那他患上感冒的概率有多大？ 3.1朴素贝叶斯分类对于这个问题，可以用贝叶斯定理，假设P(A)表示A发生的概率，P(B)表示B发生的概率，P(A|B)表示B发生的前提下A发生的概率，P(B|A)表示A发生的前提下B发生的概率；根据贝叶斯定理： P(A|B)?=?P(B|A)?P(A)?/?P(B) 可得：P(感冒|打喷嚏x建筑工人)? 　　　　=?P(打喷嚏x建筑工人|感冒)?x?P(感冒)? /? P(打喷嚏x建筑工人) 假定打喷嚏和建筑工人这两个特征是独立的，因此，上面的等式就变成了 P(感冒|打喷嚏x建筑工人)? 　　　　=?P(打喷嚏|感冒)?x?P(建筑工人|感冒)?x?P(感冒) /?P (打喷嚏)?x?P(建筑工人) 而根据表中信息，P(打喷嚏|感冒)、?P(建筑工人|感冒)?、P(感冒) 、?P (打喷嚏)?、?P(建筑工人)均可计算出来，所以： P(感冒|打喷嚏x建筑工人)? 　　　　=?0.66?x?0.33?x?0.5?/?0.5?x?0.33? 　　　　=?0.66 因此，这个打喷嚏的建筑工人，有66%的概率是得了感冒。同理，可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率，可以知道他最可能得什么病。总之，贝叶斯分类器的基本思想：在统计资料的基础上，依据某些特征，计算各个类别的概率，从而实现分类。 3.1朴素贝叶斯分类（2）朴素贝叶斯分类的公式假设某个体有n项特征（Feature），分别为F1、F2、...、Fn。现有m个类别（Category），分别为C1、C2、...、Cm。贝叶斯分类器就是计算出概率最大的那个分类，也就是求下面这个算式的最大值： P(C|F1F2...Fn)?=?P(F1F2...Fn|C)P(C)?/?P(F1F2...Fn) (1) 由于P(F1F2...Fn)对于所有的类别都是相同的，可以省略；所以只需要求解?P(F1F2...Fn|C)P(C)的最大值即可。朴素贝叶斯分类器假设所有特征都彼此独立，因此： P(F1F2...Fn|C)P(C)?=?P(F1|C)P(F2|C)?...?P(Fn|C)P(C) (2) 公式（2）等号右边的每一项，都可以从统计资料中得到，由此就可以计算出每个类别对应的概率，从而找出最大概率的那个类。 3.1朴素贝叶斯分类（3）Spark朴素贝叶斯分类示例本示例基于Spark自带的范例，演示如何通过Spark机器学习的NaiveBayes将输入的数据分为0或1两大类。示例所用的数据为Spark安装目录下的“/data/mllib/sample_libsvm_data.txt”文件，该文件数据格式为：“类别标识特征序号1：特征值1 特征序号2：特征值2 特征序号3：特征值3 ”，其中类别标识即目标值，本示例中类别标识为0或1