机器学习聚类.pptVIP

下载本文档

3
0
约4.52千字
约 57页
2025-12-04 发布于浙江
举报
版权申诉

机器学习聚类.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习：聚类(Clustering)聚类与系统发生树*棕熊北极熊黑熊眼镜熊大熊猫浣熊小熊猫机器学习：聚类(Clustering)聚类与系统发生树*机器学习：聚类(Clustering)聚类方法：有瑕团聚类（CorruptedCliquesClustering）团是图论中的概念：通过删边和加边，一个图可以破解为团的集合：*机器学习：聚类(Clustering)聚类方法：有瑕团聚类待聚类数据的距离矩阵为完全图的邻接矩阵：通过取一个阈值，可以将距离大的边删除；将剩余的图破解为团的集合，每个团对应一个聚类；*机器学习：双聚类(Bi-Clustering)双聚类：大规模表达数据的聚类基因并不在所有条件下表达；基因受多个转录因子调控；两步聚类不能解决问题；*条件基因传统聚类双聚类机器学习：双聚类(Bi-Clustering)双聚类的目标：相关性*机器学习：分类聚类与分类的区别：训练集合有无（监督与非监督）类别已知和未知*f()f()f()f()f()f()f()f()f(.)f()f()f()f()f()f()f()f()f()f()机器学习：分类分类问题及其算法对研究对象进行贴标签式分类；用途：自然科学中有很多分类问题；生物种群分类；基于训练集合进行特征选取；基于各种特征进行疾病诊断；方式：基于各种特征，或在机器学习过程中提取特征；一般基于训练集合给出关于特征的标准；*机器学习：分类二分类问题：目的：将研究目标分为不同属性的两类；标准：基于训练集合的特征选取和特征函数构造；方法：利用学习出来的标准对新目标进行分类；方法：贝叶斯分类；决策树；支持向量机；人工神经网络；k近邻法；。。。*机器学习：决策树决策树(DecisionTree)决策树由一个决策图和可能的结果组成，用来创建到达目标的规划。常用于分类；动物分类的例子：基于不同的属性进行分步骤的判断；*根结点个子大可能是松鼠可能是老鼠可能是大象在水里会吱吱叫鼻子长脖子长个子小不会吱吱叫鼻子短脖子短可能是长颈鹿在陆地上可能是犀牛可能是河马机器学习：决策树要素：特征参数：xi；分类标签：y=0or1；训练集合：(xi,yi)构造树：决策结点、分支和叶结点。步骤：利用训练集建立并精化决策树，建立决策树模型。利用决策树对新数据进行分类。从根结点依次测试记录的属性值，直到到达某叶结点，找到该记录所在的类。关键点：建树（TreeBuilding）：决策树建树算法见下，这是一个递归的过程，最终将得到一棵树。剪枝（TreePruning）：剪枝的目的是降低由于训练集存在噪声而产生的起伏。*机器学习：决策树决策树算法的点如下：决策树是一种构建分类模型的非参数方法；不需要昂贵的的计算代价；决策树相对容易解释；决策树是学习离散值函数的典型代表；决策数对于噪声的干扰具有相当好的鲁棒性；冗余属性不会对决策树的准确率造成不利影响；找到最佳的决策树理论上是NP难问题；*机器学习：决策树例子：天气与高尔夫球场客流量；对决策树的期望：规模较小；叶节点尽量少，熵值低；决策节点特征的选取；*机器学习：决策树决策树的一些缺点：数据碎片问题。随着树的生长，可能导致叶结点记录数太少，对于叶结点代表的类，不能做出具有统计意义的判决；子树可能在决策树中重复多次，使决策树过于复杂；判定条件太过明确，导致争议；*机器学习：支持向量机支持向量机（SVM,SupportingVectorMachine）Vapnik；起源于线性分类器，线性可分；扩展到线性不可分的情况；甚至扩展到使用非线性函数中去。近年来的热点方法；监督式学习（supervisedlearning）*统计与机器学习统计学：从不完全的信息里取得准确知识的技巧。统计应用：用数理统计的原理和方法，分析和解释自然界界的种种现象和数据资料，以求把握其本质和规律性。机器学习：可以理解为计算机自动从数据中发现规律，并应用于解决新问题。内容比较杂，至今还没有统一的定义，而且也很难给出一个公认的和准确的定义。机器学习在大多数情况下应用概率论与统计学理论来设计算法；*机器学习给定数据(X1,Y1),(X2,Y2),…,(Xn,Yn)，机器自动学习X和Y之间的关系，从而对新的Xi