- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据分析与可视化;5.1 分类方法
5.2 KNN算法
5.3 逻辑回归
5.4 支持向量机
5.5 主成分分析
5.6 k-means聚类;5.1.1 理解线性回归
5.1.2 线性回归
5.1.3 决策树
5.1.4 贝叶斯定理
5.1.5 朴素贝叶斯分类器;机器学习算法:大致分为监督学习、无监督学习、强化学习和深度学习
一个良好的分类器所需内容:
(1)一组良好的训练示例(训练数据)
(2)在训练集上相对良好的分类表现
(3)一个与先前预期密切相关的分类器方法
;例:不同二元分类器
二元分类器将获取的样本数据分为两个类别之一(对于更高维度的情况,数据会被分类到多个类别中);分类算法通用步骤:
(1)从可靠来源收集数据
(2)准备或重新组织具有特定结构的数据,对于分类问题,往往需要进行与“距离”相关的计算和处理
(3)使用适当的方法分析数据
(4)训练(二元)分类器
(5)测试(计算错误率)
;5.1.1 理解线性回归
例:GPA和SAT分数样本数据;例:使用 matplotlib 和 NumPy 来进行探索;5.1 分类算法;5.1 分类算法;5.1.2 线性回归
简单线性回归方程;5.1 分类算法;散点图考察变量间相关性;5.1 分类算法;例:录取情况和运动、音乐和学术的关系;例:录取率与音乐的线性回归结果;5.1.3 决策树
用于将数据划分到响应变量对应的不同类
响应变量通常包含两个类别,例如是或否(1 或 0);如果目标变量有两个以上的类别,则 C4.5 可以满足需要
当预测变量与响应之间的关系为线性时,标准回归树更合适,而当预测变量与响应之间的关系为非线性时,则应使用 C4.5。此外,当响应变量只有两个类别时,应该使用决策树算法;例:打网球或高尔夫球的决策树算法;添加离散属性(比如温度)
所有这些规则可以结合如下:;例:训练集数据;自上而下归纳的决策树(ID3)遵循以下规则:
(1)迭代叶节点直到满足某种停止条件
(2)确定一个最佳的用于决策的特征
(3)将步骤(2)中的最佳节点指定为决策特征
(4)为最佳节点对应的每个可能的取值,创建新叶节点
(5)将数据排序分配到叶节点中
(6)每一个数据都能够在阈值内被分类
;线性回归和决策树算法之间的一个明显区别是决策树的决策边界平行于坐标轴
决策树算法的优点是它对错误具有鲁棒性,考虑到训练集中可能有错误,它对算法的影响不大;5.1 分类算法;5.1 分类算法;5.1 分类算法;5.1 分类算法;5.1.4 贝叶斯定理
例:假设在我国所有人形成的总体 U 中,患有乳腺癌的人的集合是 A 组,而 B 组是进行了乳腺癌筛查测试且诊断结果为阳性的人的集合;随机选择的人的诊断结果是否为阳性?这个人患乳腺癌的概率是多少?
条件概率方程:;如果我们知道一个随机选择的人患有乳腺癌,其诊断结果为阳性的概率是多少?
即给定A时B的概率:;5.1.5 朴素贝叶斯分类器
基于贝叶斯定理,适用于输入维数较高的情况
例:以红色显示的对象代表患有乳腺癌的人群,以蓝色显示的对象代表被诊断出患有乳腺癌的人群。任务是得到能够标记各种新数据的分类器;先验概率更倾向于接近对象当前特征的模式或行为
如果红色对象的百分比大于蓝色对象,那么这给了我们一个预期,即新对象预测为红色对象的概率应该更高;利用红色对象和蓝色对象的先验概率,可以计算出x是红色对象还是蓝色对象的后验概率;KNN(K-Nearest Neighbors,k近邻)算法
可以存储总结所有已知案例,并基于相似性度量(如欧几里得距离)对新案例进行分类
对于 1近邻(1NN),它将一个特定点的标签设置为它距离最近的训练点的标签。当我们将其扩展为更高的K值时,测试点的标签取决于K个最近的训练点测量的标签
优点:准确性高,对异常值不敏感,无需对数据进行假设
缺点:计算量大,需要占用大量内存;距离度量;例:区分一大篮子水果,里面只有苹果、香蕉和梨
形状特征分类如下:
(1)对于苹果,形状值介于 1 到 3 之间,颜色是红色或青色,而质量介于 170g 到 200g之间。
(2)对于梨,形状值介于 2 到 4 之间,颜色是绿色或黄色,而质量介于 240g 到 250g 之间。
(3)对于香蕉,形状值介于 3 到 5 之间,颜色是黄色,而质量介于 140g 到 160g之间。
;水果数据;5.2 KNN算法;5.2 KNN算法;5.2 KNN算法;5.2 KNN算法;逻辑回归(Logistic Regression)
与线性回归相比,逻辑回归可以直接预测所有概率;与朴素贝叶斯相比,逻辑回归可以更好地校准预测概率
假设输入变量可以通过逆对数函数(Inverse Log Function)进行缩放
即观察到的 y 值的对数可以表示为x的n个输入变量的线性组合,如下式所
您可能关注的文档
- Chapter1 数据可视化概述、Chapter2 数据可视化.pptx
- 数据分析与可视化_ 课件 Chapter3 常见Python IDE、Chapter4 数值计算与交互式绘图.pptx
- 数据分析与可视化_ 课件 Chapter7 图结构数据和网络模型、Chapter8 高级可视化.pptx
- 数据分析与可视化 课件全套 人邮 Chapter1 数据可视化概述---Chapter8 高级可视化.pptx
- 建筑识图 习题及答案 匡星.docx
- 大数据基础 习题及答案 秦华伟.docx
- 物流信息管理 课程标准.pdf
- PLC技术应用 习题与答案 梁珠芳.docx
- 项目1 建筑识图基础知识.pptx
- 建筑识图 课件 项目2 投影画法.pptx
最近下载
- 肛管直肠周围间隙的解剖.ppt
- 新人教版(2022新课标)七年级上册英语教学课件 Starter Unit 2第3课时(Section A Pronunciation 1-4)第3课时(Section A Pronunciation 1-4) .pptx VIP
- 工商储能项目的电网接入与协调方案(参考).docx
- 孤独症教育康复—孤独症儿童康复之感觉统合训练.pptx
- 2025年《网络传播法规》考试复习题库资料(含答案).pdf VIP
- 祥生PC装配整体式工程管控标准(试行版).pdf VIP
- 景区物业服务投标方案(技术标).doc
- 高手接话:高情商的讲话方法.pdf VIP
- 文学理论童庆炳.doc VIP
- 网络系统集成考试复习题库..doc VIP
文档评论(0)