数学地质讲义.pptVIP

  1. 1、本文档共154页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学地质讲义

整理上述条件得到 将这些代入Lagrange乘子式,得到 4.2 支持向量机 4.2.2 SVM的数学表示--求解 是典型的凸二次规划问题,有唯一的全局最优解。 解出?后,可求得w和b ,得到最优分类面 内积运算 4.2 支持向量机 4.2.2 SVM的数学表示--求解 对于非线性可分的情况,有以下思路 非线性可分的数据样本在高维空间有可能转化为线性可分。使用函数?:Rm Rn ,将所有样本点映射到高维空间,则新的样本集为 在优化过程中,只涉及两两样本向量点乘(而不出现单独样本计算),故可考虑用一个简单函数代替复杂的内积计算 4.2 支持向量机 4.2.2 SVM的数学表示--求解 已知:观测样本 (x1,y1), (x2,y2)… (xn,yn) 求解 因此,非线性最优分类面的求解问题为 最优非线性分类面为 4.2 支持向量机 4.2.2 SVM的数学表示--求解 K( xi,yi )称为核函数,它的形式应符合 Mercer条件。 Mercer条件(定理)为: 任意对称函数K( x,x’),它是某个特征空间中的内积运算的充分必要条件是,对于任意的?(x)? 0, 且? ?2(x)dx?,有 ?? K( x,x’) ?(x ’ )dx dx’ 0 4.2 支持向量机 4.2.2 SVM的数学表示--求解 K( xi,yi )(核函数)常用的有如下几种形式 线性核函数 多项式核函数 径向基核函数 S型核函数 4.2 支持向量机 4.2.2 SVM的数学表示--求解 得到最优分类面后,可以构造判别函数: f(x) = sgn(wx+b) = sgn( ? ? ?i yi K( xi,x )+b) i= 1 n 对于任意未知样品,用上式算出f(x) 的值(符号)即可判断其应属何类。 4.2 支持向量机 4.2.2 SVM的数学表示--求解 SVM在形式上相当于一个3层神经网络: K( x1,x) K( x2,x) K( xs,x) ?1y1 ?2y2 ?sys y x1 x2 xd 诸?i中一般只有一小部分不为0。凡对应?i不为0的xi称为支持向量。故该模型称支持向量机。 4.2 支持向量机 4.2.3 说明 SVM在训练建模时,常需存储原始数据矩阵和核函数矩阵,所以内存开销很大。现在的一个研究热点是建立高效的算法,克服这个问题。 4.2 支持向量机 4.2.3 说明 4.2 支持向量机 4.2.4 例子 数据点分布情况: 由图可见,是一种非线性可分情况 4.2 支持向量机 4.2.4 例子 一种简易的叠代训练算法 步骤1. 以0初始化系数向量?i 步骤2. Repeat 步骤3. 对每一样本,计算核函数向量Ki 步骤4. 对每一样本,计算输出Y 步骤5. 比较Y与Yi 步骤6. 根据比较结果调整?i 步骤7. Until 所有的?i都不再需要调整 4.2 支持向量机 4.2.4 例子 训练结果(叠代2164次,耗时约1s) 4.2 支持向量机 4.2.4 例子 回判结果(全部正确) 4.2 支持向量机 4.2.4 例子 3.3 层次聚类方法 层次聚类方法的例子。分类树: 以距离为相似性指标 3.3 层次聚类方法 层次聚类方法的例子。分类树: 以相似系数(夹角余弦)为相似性指标 3.4 基于密度的聚类方法 DBSCAN– Density Based Spatial Clustering of Applications with Noise 这种聚类方法以多变量空间内样品点(对象)的分布的密度(相互距离)为基础。相似的对象将较集中于该空间内一定区域中,不相似的对象将相互远离。因此,定义 “类” 为“密度相连”的对象的最大集合。 该方法涉及以下一些概念: 3.4 基于密度的聚类方法 --DBSCAN ?-邻域:指多变量空间内任一对象周围半径为?的区域。 ?>0是距离。 核心对象:如果一个对象的?-邻域内至少有MinPts个对象,则该对象称为核心对象。 MinPts>0 是预先规定的最小对象数目。 密度可达,密度相连:若p为核心对象,q位于p的?-邻域,s位于q的?-邻域,t位于s的?-邻域…, 则q,s,t… 都是从p密度可达的, p, q, s, t…是密度相连的。 密度可达,必须是从一个核必对象出发。密度相连的集合,必包含核心对象。 3.4 基于密度的聚类方法 --DBSCAN 例如,考虑两个变量(2维)。设?为圆的半径,MinPts=3: 密度相连的对象集合将被聚为一个类;不能归入任何类的对象将被视为孤立点或噪声。 3.4 基于密度的聚类方法 --DBSCAN 计算过程: 数据规格化 开始 设定两个参数 ? 和 MinPts 寻找一个新的核心对象 如果找到 结束 找出所有从该核心对象出发密度相

文档评论(0)

zijingling + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档