LINUX概述全套课件.ppt

  1. 1、本文档共333页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
全套课件完整版课件ppt整套电子教案全书电子教案课件教程教学课件汇总汇集

import org.apache.spark.ml.feature.{IndexToString, StringIndexer} val df = spark.createDataFrame( Seq((0, spark), (1, hadoop), (2, flink), (3, spark), (4, hadoop), (5, spark)) ).toDF(id, category) val indexer = new StringIndexer() .setInputCol(category) .setOutputCol(categoryIndex) .fit(df) val indexed = indexer.transform(df) //生成一个IndexToString实例,其输入列为categoryIndex,输出列为originalCategory val converter = new IndexToString() .setInputCol(categoryIndex) .setOutputCol(originalCategory) //使用converter再将indexed的索引标签列还原为原始的字符串 val converted = converter.transform(indexed) converted.show() 2.2特征转换 Spark分类与聚类 任务3 根据特征数据进行分类或聚类。 Spark ML库常用的分类算法与聚类算法。 spark.ml包中朴素贝叶斯分类及K-means聚类。 (1)朴素贝叶斯分类的实例 为了便于理解朴素贝叶斯分类,在讲解其理论之前,先看如下示例:假设某医药门诊接待了6个病人,其症状、职业、确诊所患的疾病如下所示: 现在又来了第七个病人,是一个打喷嚏的建筑工人,那他患上感冒的概率有多大? 3.1朴素贝叶斯分类 对于这个问题,可以用贝叶斯定理,假设P(A)表示A发生的概率,P(B)表示B发生的概率,P(A|B)表示B发生的前提下A发生的概率,P(B|A)表示A发生的前提下B发生的概率;根据贝叶斯定理: P(A|B)?=?P(B|A)?P(A)?/?P(B) 可得:P(感冒|打喷嚏x建筑工人)?     =?P(打喷嚏x建筑工人|感冒)?x?P(感冒)? /? P(打喷嚏x建筑工人) 假定打喷嚏和建筑工人这两个特征是独立的,因此,上面的等式就变成了 P(感冒|打喷嚏x建筑工人)?     =?P(打喷嚏|感冒)?x?P(建筑工人|感冒)?x?P(感冒) /?P (打喷嚏)?x?P(建筑工人) 而根据表中信息,P(打喷嚏|感冒)、?P(建筑工人|感冒)?、P(感冒) 、?P (打喷嚏)?、?P(建筑工人)均可计算出来,所以: P(感冒|打喷嚏x建筑工人)?     =?0.66?x?0.33?x?0.5?/?0.5?x?0.33?     =?0.66 因此,这个打喷嚏的建筑工人,有66%的概率是得了感冒。同理,可以计算这个病人患上过敏或脑震荡的概率。比较这几个概率,可以知道他最可能得什么病。总之,贝叶斯分类器的基本思想:在统计资料的基础上,依据某些特征,计算各个类别的概率,从而实现分类。 3.1朴素贝叶斯分类 (2)朴素贝叶斯分类的公式 假设某个体有n项特征(Feature),分别为F1、F2、...、Fn。现有m个类别(Category),分别为C1、C2、...、Cm。贝叶斯分类器就是计算出概率最大的那个分类,也就是求下面这个算式的最大值: P(C|F1F2...Fn)?=?P(F1F2...Fn|C)P(C)?/?P(F1F2...Fn) (1) 由于P(F1F2...Fn)对于所有的类别都是相同的,可以省略;所以只需要求解?P(F1F2...Fn|C)P(C)的最大值即可。朴素贝叶斯分类器假设所有特征都彼此独立,因此: P(F1F2...Fn|C)P(C)?=?P(F1|C)P(F2|C)?...?P(Fn|C)P(C) (2) 公式(2)等号右边的每一项,都可以从统计资料中得到,由此就可以计算出每个类别对应的概率,从而找出最大概率的那个类。 3.1朴素贝叶斯分类 (3)Spark朴素贝叶斯分类示例 本示例基于Spark自带的范例,演示如何通过Spark机器学习的NaiveBayes将输入的数据分为0或1两大类。示例所用的数据为Spark安装目录下的“/data/mllib/sample_libsvm_data.txt”文件,该文件数据格式为:“类别标识 特征序号1:特征值1 特征序号2:特征值2 特征序号3:特征值3 ”,其中类别标识即目标值,本示例中类别标识为0或1

文档评论(0)

BLUED + 关注
实名认证
内容提供者

教师资格证持证人

全网 内容最全课件 价格最低 质量最高 不是之一,是唯一。 每个人使用的办公软件版本不一样,如有个别显示不出的文件,建议使用最新版。

版权声明书
用户编号:8070063100000015
领域认证该用户于2023年03月20日上传了教师资格证

1亿VIP精品文档

相关文档