机器学习.ppt-山东大学.ppt

  1. 1、本文档共58页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习.ppt-山东大学

THE END! * 机器学习:聚类 (CLUSTERING) 聚类方法:层次聚类( Hierarchical Clustering) 常用于系统发生树的构造(基于序列): * 机器学习:聚类 (CLUSTERING) 聚类与系统发生树 * 棕熊 北极熊 黑熊 眼镜熊 大熊猫 浣熊 小熊猫 机器学习:聚类 (CLUSTERING) 聚类与系统发生树 * 机器学习:聚类 (CLUSTERING) 聚类方法:有瑕团聚类( Corrupted Cliques Clustering) 团是图论中的概念: 通过删边和加边,一个图可以破解为团的集合: * 机器学习:聚类 (CLUSTERING) 聚类方法:有瑕团聚类 待聚类数据的距离矩阵为完全图的邻接矩阵: 通过取一个阈值,可以将距离大的边删除; 将剩余的图破解为团的集合,每个团对应一个聚类; * 机器学习:双聚类 (BI-CLUSTERING) 双聚类:大规模表达数据的聚类 基因并不在所有条件下表达; 基因受多个转录因子调控; 两步聚类不能解决问题; * 条件 基 因 传统聚类 双聚类 机器学习:双聚类 (BI-CLUSTERING) 双聚类的目标:相关性 * 机器学习:分类 聚类与分类的区别: 训练集合有无 (监督与非监督) 类别已知和未知 * f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f(.) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) 机器学习:分类 分类问题及其算法 对研究对象进行贴标签式分类; 用途: 自然科学中有很多分类问题; 生物种群分类; 基于训练集合进行特征选取; 基于各种特征进行疾病诊断; 方式: 基于各种特征,或在机器学习过程中提取特征; 一般基于训练集合给出关于特征的标准; * 机器学习:分类 二分类问题: 目的:将研究目标分为不同属性的两类; 标准:基于训练集合的特征选取和特征函数构造; 方法:利用学习出来的标准对新目标进行分类; 方法: 贝叶斯分类; 决策树; 支持向量机; 人工神经网络; k 近邻法; 。。。 * 机器学习:决策树 决策树(Decision Tree) 决策树由一个决策图和可能的结果组成, 用来创建到达目标的规划。 常用于分类; 动物分类的例子: 基于不同的属性进行分步骤的判断; * 根结点 个子大 可能是松鼠 可能是老鼠 可能是大象 在水里 会吱吱叫 鼻子长 脖子长 个子小 不会吱吱叫 鼻子短 脖子短 可能是长颈鹿 在陆地上 可能是犀牛 可能是河马 机器学习:决策树 要素: 特征参数:xi;分类标签: y= 0 or 1; 训练集合: (xi, yi) 构造树:决策结点、分支和叶结点。 步骤: 利用训练集建立并精化决策树,建立决策树模型。 利用决策树对新数据进行分类。从根结点依次测试记录的属性值,直到到达某叶结点,找到该记录所在的类。 关键点: 建树(Tree Building):决策树建树算法见下,这是一个递归的过程,最终将得到一棵树。 剪枝(Tree Pruning):剪枝的目的是降低由于训练集存在噪声而产生的起伏。 * 机器学习:决策树 决策树算法的点如下: 决策树是一种构建分类模型的非参数方法; 不需要昂贵的的计算代价; 决策树相对容易解释; 决策树是学习离散值函数的典型代表; 决策数对于噪声的干扰具有相当好的鲁棒性; 冗余属性不会对决策树的准确率造成不利影响; 找到最佳的决策树理论上是 NP 难问题; * 机器学习:决策树 例子:天气与高尔夫球场客流量; 对决策树的期望: 规模较小; 叶节点尽量少,熵值低; 决策节点特征的选取; * 机器学习:决策树 决策树的一些缺点: 数据碎片问题。随着树的生长,可能导致叶结点记录数太少,对于叶结点代表的类,不能做出具有统计意义的判决; 子树可能在决策树中重复多次,使决策树过于复杂; 判定条件太过明确,导致争议; * 机器学习:支持向量机 支持向量机 (SVM, Supporting Vector Machine) Vapnik; 起源于线性分类器,线性可分; 扩展到线性不可分的情况; 甚至扩展到使用非线性函数中去。 近年来的热点方法; 监督式学习(supervised learning) * 机器学习:支持向量机 思想: 如果两类别训练样本线性可分,则在两个类别的样本集之间存在一个间隔。我们来寻找最优分界面;对一个二维空间的问题用下图表示。 * 机器学习:支持向量机 思想(续1) H 是将两类分开的分界面,而 H1 与 H2 与 H 平行,H 是其平分面,H1 上的样本是第一类样本到 H 最近距离的点,H2 的点

文档评论(0)

busuanzi + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档