数据分析与可视化_ 课件 Chapter5 统计学与机器学习、Chapter6 金融与统计模型.pptx

下载文档 降价啦

0
0
约3.42千字
约 110页
2023-10-09 发布于山东
举报
版权申诉
保障服务

数据分析与可视化_ 课件 Chapter5 统计学与机器学习、Chapter6 金融与统计模型.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据分析与可视化;5.1 分类方法 5.2 KNN算法 5.3 逻辑回归 5.4 支持向量机 5.5 主成分分析 5.6 k-means聚类;5.1.1 理解线性回归 5.1.2 线性回归 5.1.3 决策树 5.1.4 贝叶斯定理 5.1.5 朴素贝叶斯分类器;机器学习算法：大致分为监督学习、无监督学习、强化学习和深度学习一个良好的分类器所需内容：（1）一组良好的训练示例（训练数据）（2）在训练集上相对良好的分类表现（3）一个与先前预期密切相关的分类器方法 ;例：不同二元分类器二元分类器将获取的样本数据分为两个类别之一（对于更高维度的情况，数据会被分类到多个类别中）;分类算法通用步骤：（1）从可靠来源收集数据（2）准备或重新组织具有特定结构的数据，对于分类问题，往往需要进行与“距离”相关的计算和处理（3）使用适当的方法分析数据（4）训练（二元）分类器（5）测试（计算错误率） ;5.1.1 理解线性回归例：GPA和SAT分数样本数据;例：使用 matplotlib 和 NumPy 来进行探索;5.1 分类算法;5.1 分类算法;5.1.2 线性回归简单线性回归方程;5.1 分类算法;散点图考察变量间相关性;5.1 分类算法;例：录取情况和运动、音乐和学术的关系;例：录取率与音乐的线性回归结果;5.1.3 决策树用于将数据划分到响应变量对应的不同类响应变量通常包含两个类别，例如是或否（1 或 0）；如果目标变量有两个以上的类别，则 C4.5 可以满足需要当预测变量与响应之间的关系为线性时，标准回归树更合适，而当预测变量与响应之间的关系为非线性时，则应使用 C4.5。此外，当响应变量只有两个类别时，应该使用决策树算法;例：打网球或高尔夫球的决策树算法;添加离散属性（比如温度）所有这些规则可以结合如下：;例：训练集数据;自上而下归纳的决策树（ID3）遵循以下规则：（1）迭代叶节点直到满足某种停止条件（2）确定一个最佳的用于决策的特征（3）将步骤（2）中的最佳节点指定为决策特征（4）为最佳节点对应的每个可能的取值，创建新叶节点（5）将数据排序分配到叶节点中（6）每一个数据都能够在阈值内被分类 ;线性回归和决策树算法之间的一个明显区别是决策树的决策边界平行于坐标轴决策树算法的优点是它对错误具有鲁棒性，考虑到训练集中可能有错误，它对算法的影响不大;5.1 分类算法;5.1 分类算法;5.1 分类算法;5.1 分类算法;5.1.4 贝叶斯定理例：假设在我国所有人形成的总体 U 中，患有乳腺癌的人的集合是 A 组，而 B 组是进行了乳腺癌筛查测试且诊断结果为阳性的人的集合;随机选择的人的诊断结果是否为阳性？这个人患乳腺癌的概率是多少？条件概率方程：;如果我们知道一个随机选择的人患有乳腺癌，其诊断结果为阳性的概率是多少？即给定A时B的概率：;5.1.5 朴素贝叶斯分类器基于贝叶斯定理，适用于输入维数较高的情况例：以红色显示的对象代表患有乳腺癌的人群，以蓝色显示的对象代表被诊断出患有乳腺癌的人群。任务是得到能够标记各种新数据的分类器;先验概率更倾向于接近对象当前特征的模式或行为如果红色对象的百分比大于蓝色对象，那么这给了我们一个预期，即新对象预测为红色对象的概率应该更高;利用红色对象和蓝色对象的先验概率，可以计算出x是红色对象还是蓝色对象的后验概率;KNN（K-Nearest Neighbors，k近邻）算法可以存储总结所有已知案例，并基于相似性度量（如欧几里得距离）对新案例进行分类对于 1近邻（1NN），它将一个特定点的标签设置为它距离最近的训练点的标签。当我们将其扩展为更高的K值时，测试点的标签取决于K个最近的训练点测量的标签优点：准确性高，对异常值不敏感，无需对数据进行假设缺点：计算量大，需要占用大量内存;距离度量;例：区分一大篮子水果，里面只有苹果、香蕉和梨形状特征分类如下：（1）对于苹果，形状值介于 1 到 3 之间，颜色是红色或青色，而质量介于 170g 到 200g之间。（2）对于梨，形状值介于 2 到 4 之间，颜色是绿色或黄色，而质量介于 240g 到 250g 之间。（3）对于香蕉，形状值介于 3 到 5 之间，颜色是黄色，而质量介于 140g 到 160g之间。 ;水果数据;5.2 KNN算法;5.2 KNN算法;5.2 KNN算法;5.2 KNN算法;逻辑回归（Logistic Regression）与线性回归相比，逻辑回归可以直接预测所有概率；与朴素贝叶斯相比，逻辑回归可以更好地校准预测概率假设输入变量可以通过逆对数函数（Inverse Log Function）进行缩放即观察到的 y 值的对数可以表示为x的n个输入变量的线性组合，如下式所