机器学习.ppt-山东大学.ppt

下载文档 降价啦

227
0
约6.29千字
约 58页
2017-03-05 发布于天津
举报
版权申诉
保障服务

机器学习.ppt-山东大学.ppt

1、本文档共58页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习.ppt-山东大学

THE END！ * 机器学习：聚类 (CLUSTERING) 聚类方法：层次聚类（ Hierarchical Clustering）常用于系统发生树的构造（基于序列）： * 机器学习：聚类 (CLUSTERING) 聚类与系统发生树 * 棕熊北极熊黑熊眼镜熊大熊猫浣熊小熊猫机器学习：聚类 (CLUSTERING) 聚类与系统发生树 * 机器学习：聚类 (CLUSTERING) 聚类方法：有瑕团聚类（ Corrupted Cliques Clustering）团是图论中的概念：通过删边和加边，一个图可以破解为团的集合： * 机器学习：聚类 (CLUSTERING) 聚类方法：有瑕团聚类待聚类数据的距离矩阵为完全图的邻接矩阵：通过取一个阈值，可以将距离大的边删除；将剩余的图破解为团的集合，每个团对应一个聚类； * 机器学习：双聚类 (BI-CLUSTERING) 双聚类：大规模表达数据的聚类基因并不在所有条件下表达；基因受多个转录因子调控；两步聚类不能解决问题； * 条件基因传统聚类双聚类机器学习：双聚类 (BI-CLUSTERING) 双聚类的目标：相关性 * 机器学习：分类聚类与分类的区别：训练集合有无（监督与非监督）类别已知和未知 * f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f(.) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) 机器学习：分类分类问题及其算法对研究对象进行贴标签式分类；用途：自然科学中有很多分类问题；生物种群分类；基于训练集合进行特征选取；基于各种特征进行疾病诊断；方式：基于各种特征，或在机器学习过程中提取特征；一般基于训练集合给出关于特征的标准； * 机器学习：分类二分类问题：目的：将研究目标分为不同属性的两类；标准：基于训练集合的特征选取和特征函数构造；方法：利用学习出来的标准对新目标进行分类；方法：贝叶斯分类；决策树；支持向量机；人工神经网络； k 近邻法；。。。 * 机器学习：决策树决策树(Decision Tree) 决策树由一个决策图和可能的结果组成，用来创建到达目标的规划。常用于分类；动物分类的例子：基于不同的属性进行分步骤的判断； * 根结点个子大可能是松鼠可能是老鼠可能是大象在水里会吱吱叫鼻子长脖子长个子小不会吱吱叫鼻子短脖子短可能是长颈鹿在陆地上可能是犀牛可能是河马机器学习：决策树要素：特征参数：xi；分类标签： y= 0 or 1；训练集合： (xi, yi) 构造树：决策结点、分支和叶结点。步骤：利用训练集建立并精化决策树，建立决策树模型。利用决策树对新数据进行分类。从根结点依次测试记录的属性值，直到到达某叶结点，找到该记录所在的类。关键点：建树（Tree Building）：决策树建树算法见下，这是一个递归的过程，最终将得到一棵树。剪枝（Tree Pruning）：剪枝的目的是降低由于训练集存在噪声而产生的起伏。 * 机器学习：决策树决策树算法的点如下：决策树是一种构建分类模型的非参数方法；不需要昂贵的的计算代价；决策树相对容易解释；决策树是学习离散值函数的典型代表；决策数对于噪声的干扰具有相当好的鲁棒性；冗余属性不会对决策树的准确率造成不利影响；找到最佳的决策树理论上是 NP 难问题； * 机器学习：决策树例子：天气与高尔夫球场客流量；对决策树的期望：规模较小；叶节点尽量少，熵值低；决策节点特征的选取； * 机器学习：决策树决策树的一些缺点：数据碎片问题。随着树的生长，可能导致叶结点记录数太少，对于叶结点代表的类，不能做出具有统计意义的判决；子树可能在决策树中重复多次，使决策树过于复杂；判定条件太过明确，导致争议； * 机器学习：支持向量机支持向量机（SVM, Supporting Vector Machine） Vapnik；起源于线性分类器，线性可分；扩展到线性不可分的情况；甚至扩展到使用非线性函数中去。近年来的热点方法；监督式学习（supervised learning） * 机器学习：支持向量机思想：如果两类别训练样本线性可分，则在两个类别的样本集之间存在一个间隔。我们来寻找最优分界面；对一个二维空间的问题用下图表示。 * 机器学习：支持向量机思想（续1） H 是将两类分开的分界面，而 H1 与 H2 与 H 平行，H 是其平分面，H1 上的样本是第一类样本到 H 最近距离的点，H2 的点