- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习聚类
THE END! * 机器学习:聚类 (CLUSTERING) 聚类方法:层次聚类( Hierarchical Clustering) 常用于系统发生树的构造(基于序列): * 机器学习:聚类 (CLUSTERING) 聚类与系统发生树 * 棕熊 北极熊 黑熊 眼镜熊 大熊猫 浣熊 小熊猫 机器学习:聚类 (CLUSTERING) 聚类与系统发生树 * 机器学习:聚类 (CLUSTERING) 聚类方法:有瑕团聚类( Corrupted Cliques Clustering) 团是图论中的概念: 通过删边和加边,一个图可以破解为团的集合: * 机器学习:聚类 (CLUSTERING) 聚类方法:有瑕团聚类 待聚类数据的距离矩阵为完全图的邻接矩阵: 通过取一个阈值,可以将距离大的边删除; 将剩余的图破解为团的集合,每个团对应一个聚类; * 机器学习:双聚类 (BI-CLUSTERING) 双聚类:大规模表达数据的聚类 基因并不在所有条件下表达; 基因受多个转录因子调控; 两步聚类不能解决问题; * 条件 基 因 传统聚类 双聚类 机器学习:双聚类 (BI-CLUSTERING) 双聚类的目标:相关性 * 机器学习:分类 聚类与分类的区别: 训练集合有无 (监督与非监督) 类别已知和未知 * f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f(.) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) f( ) 机器学习:分类 分类问题及其算法 对研究对象进行贴标签式分类; 用途: 自然科学中有很多分类问题; 生物种群分类; 基于训练集合进行特征选取; 基于各种特征进行疾病诊断; 方式: 基于各种特征,或在机器学习过程中提取特征; 一般基于训练集合给出关于特征的标准; * 机器学习:分类 二分类问题: 目的:将研究目标分为不同属性的两类; 标准:基于训练集合的特征选取和特征函数构造; 方法:利用学习出来的标准对新目标进行分类; 方法: 贝叶斯分类; 决策树; 支持向量机; 人工神经网络; k 近邻法; 。。。 * 机器学习:决策树 决策树(Decision Tree) 决策树由一个决策图和可能的结果组成, 用来创建到达目标的规划。 常用于分类; 动物分类的例子: 基于不同的属性进行分步骤的判断; * 根结点 个子大 可能是松鼠 可能是老鼠 可能是大象 在水里 会吱吱叫 鼻子长 脖子长 个子小 不会吱吱叫 鼻子短 脖子短 可能是长颈鹿 在陆地上 可能是犀牛 可能是河马 机器学习:决策树 要素: 特征参数:xi;分类标签: y= 0 or 1; 训练集合: (xi, yi) 构造树:决策结点、分支和叶结点。 步骤: 利用训练集建立并精化决策树,建立决策树模型。 利用决策树对新数据进行分类。从根结点依次测试记录的属性值,直到到达某叶结点,找到该记录所在的类。 关键点: 建树(Tree Building):决策树建树算法见下,这是一个递归的过程,最终将得到一棵树。 剪枝(Tree Pruning):剪枝的目的是降低由于训练集存在噪声而产生的起伏。 * 机器学习:决策树 决策树算法的点如下: 决策树是一种构建分类模型的非参数方法; 不需要昂贵的的计算代价; 决策树相对容易解释; 决策树是学习离散值函数的典型代表; 决策数对于噪声的干扰具有相当好的鲁棒性; 冗余属性不会对决策树的准确率造成不利影响; 找到最佳的决策树理论上是 NP 难问题; * 机器学习:决策树 例子:天气与高尔夫球场客流量; 对决策树的期望: 规模较小; 叶节点尽量少,熵值低; 决策节点特征的选取; * 机器学习:决策树 决策树的一些缺点: 数据碎片问题。随着树的生长,可能导致叶结点记录数太少,对于叶结点代表的类,不能做出具有统计意义的判决; 子树可能在决策树中重复多次,使决策树过于复杂; 判定条件太过明确,导致争议; * 机器学习:支持向量机 支持向量机 (SVM, Supporting Vector Machine) Vapnik; 起源于线性分类器,线性可分; 扩展到线性不可分的情况; 甚至扩展到使用非线性函数中去。 近年来的热点方法; 监督式学习(supervised learning) * 机器学习:支持向量机 思想: 如果两类别训练样本线性可分,则在两个类别的样本集之间存在一个间隔。我们来寻找最优分界面;对一个二维空间的问题用下图表示。 * 机器学习:支持向量机 思想(续1) H 是将两类分开的分界面,而 H1 与 H2 与 H 平行,H 是其平分面,H1 上的样本是第一类样本到 H 最近距离的点,H2 的点
您可能关注的文档
- 无针溶液注射器.PPT
- 无锡万力粘合材料股份有限公司2016年年报告摘要.PDF
- 无锡双象超纤材料股份有限公司首次公开发行股票招股说明书.PDF
- 无线监测与农业资讯U化应用-生物产业自动化教学及研究中心.PPT
- 日光紫外线角朊细胞DNA胸腺嘧啶二聚体.PPT
- 日晚倦梳头呢李清照因为内心哀愁.PPT
- 日本ASAHIPEN朝日涂料油漆喷漆特性用途.DOC
- 日本区中心活性化政策研究.PDF
- 日本各大厂蒸气裂解装置开工情况.PDF
- 日本医疗安全的现状与未来预想.PDF
- 人教版数学九年级上册《 二次函数》说课稿(共19张PPT).ppt
- 人教版八年级上册 12.2.2三角形全等的判定 “边角边”判定三角形全等 (共22张PPT).ppt
- 人教版初中数学2011课标版八年级上册第十二章12.2 三角形全等的判定 课件(共16张PPT).ppt
- 人教版九年级第十单元课题1浓硫酸1 (共18张PPT).ppt
- 人教版初中数学七年级上册 1.4 有理数的乘除法(共22张PPT).ppt
- 人教版八年级物理上册第1章 第2节运动的描述习题课件(共20张PPT).ppt
- 人教版九年级课题2酸和碱之间会发生什么反应(共21张PPT).ppt
- 人教版初中物理2011课标版 九年级 第十八章 电功率第三节 测量小灯泡的电功率(共25张PPT).pptx
- 人教版初中数学2011课标版九年级上册第二十四章24.1圆的有关性质(共17张PPT).ppt
- 人教版初中数学2011课标版九年级上册21.2解一元二次方程(共22张PPT).pptx
最近下载
- “文化大革命”的十年全解.ppt VIP
- (正式版)W-S-T 406-2024 临床血液检验常用项目分析质量标准.docx VIP
- 人力资源定编方法.ppt VIP
- 读后续写情绪描写之羞愧内疚尴尬知识清单-高三英语二轮复习.docx VIP
- 卒中后抑郁评估量表(PSDS).docx VIP
- 函数概念的发展历程.ppt VIP
- 读后续写写作(失望、绝望、羞愧、尴尬)课件-高考英语专题复习.pptx VIP
- 大连理工大学无机化学第八章.ppt VIP
- 一、初中道德与法治新课标(核心内容)-初中道德与法治《课程标准(2022版)》核心内容及解读.docx VIP
- 上市公司现金流量分析—以格力电器为例.docx VIP
原创力文档


文档评论(0)