智能决策理论与方法.ppt

下载文档

3
0
约8.62千字
约 55页
2023-03-28 发布于重庆
举报
版权申诉
保障服务

智能决策理论与方法.ppt

1、本文档共55页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

机器学习—支持向量机 3. 局部极小值问题。神经网络训练过程中主要使用梯度下降的算法，容易陷入局部极小值。 4.收敛速度慢。神经网络主要采用基于梯度的BP学习算法，当用于大规模问题时收敛慢。 5. 黑箱问题。神经网络没有明确的函数形式解释输入和输出变量之间的相互关系，很难解释神经网络获得的结论。 20世纪90年代Vapnik提出了支持向量机(Support Vector Machines,SVM)，它被看作是高维空间函数表达的一般方法。使用SVM方法，人们可以在很高维的空间里构造好的分类规则。决策理论与方法-智能决策理论与方法第三十一页，共五十五页。机器学习—支持向量机结构化风险最小化与经验风险最小化原则经验风险最小化原则考虑分类问题。样本集为U={x1,x2,...,xl}(m维空间中的l个向量)，每个向量对应一个类别，类别空间Y={+1,-1}。记p(x,y)表示对象x为y类的概率分布。分类的任务就是寻找分类器f：U→Y且使期望风险最小。f的期望风险为：在有限样本的情况下，p(x,y)是未知的，因此期望风险无法计算。常使用经验风险代替，且当l→∞时两者相等。决策理论与方法-智能决策理论与方法第三十二页，共五十五页。机器学习—支持向量机如果成立，则称经验风险最小化原则（Empirical Risk Minimization, ERM）具有一致性。结构风险最小化原则 Vapnik在1971年证明经验风险最小值未必收敛于期望风险最小值，即ERM不成立。因此提出了结构风险最小化原则(Structural Risk Minimization, SRM)，为小样本统计理论奠定了基础。决策理论与方法-智能决策理论与方法第三十三页，共五十五页。机器学习—支持向量机 Vapnik和 Chervonenkis通过研究，得出了期望风险和经验风险的如下关系以概率1-?成立，即 l为样本点数目；参数0???1；h为函数f的维数，简称VC维。(在无法求得期望风险的情形下找到了它的一个上界) 不等式右边与样本的具体分布无关，即Vapnik的统计学习理论无需假设样本分布，克服了高维分布对样本点需求随维数而指数增长的问题。这是小样本统计理论与经典统计理论的本质区别，也是将Vapnik统计方法称之为小样本统计理论的原因。 VC维置信度决策理论与方法-智能决策理论与方法第三十四页，共五十五页。机器学习—支持向量机讨论： (1)如果l/h较大，则期望风险(实际风险)主要由经验风险来决定，因此对于大样本集经验风险经常能给出较好结果。 (2)如果比值l/h较小(小样本集)，则小的经验风险并不能保证有小的期望风险值，必须同时考虑经验风险和置信范围(称之为VC维置信度)。VC维在其中起重要作用，实际上置信范围是h的增函数。在样本点数目l一定时，分类器越复杂，即VC维越大，则置信范围越大，导致实际风险与经验风险的差别越大。结论：要想使实际风险最小不仅要使经验风险最小，还同时需要使分类器函数f的VC维h尽可能最小，这就是结构风险最小化原则。因此寻找最小属性集变得非常有意义。决策理论与方法-智能决策理论与方法第三十五页，共五十五页。机器学习—支持向量机支持向量分类模型基本分类思想：支持向量机的核心思想是将结构风险最小化原则引入到分类问题中。从线性可分情况下的最优分类超平面发展而来的，其本质是在训练样本中找出具有最优分类超平面的支持向量。在数学上归结为一个求解不等式约束条件的二次规划问题。决策理论与方法-智能决策理论与方法第三十六页，共五十五页。机器学习—支持向量机 margin与支持向量：设样本集为U={x1,x2,...,xl}(m维空间中的l个向量)，类别空间Y={+1,-1}。xi为输入向量，对应的类标签为yi(+1或-1)。若样本集是线性可分的，则存在超平面H：wx+b=0使得 (1)当wxi+b?1时，yi=+1 (2)当wxi+b?-1时，yi=-1 其中，w为权值向量，b为偏离值。统一(1),(2)得： yi(wxi+b) ?1 对于样本集的任一向量(点)xi，其到超平面H的距离为：决策理论与方法-智能决策理论与方法第三十七页，共五十五页。机器学习—支持向量机那么，margin的大小可按下式计算： margin=d++d- d+=min{di|i?{1,2,...,l},yi=+1}; d-=min{di|i?{1,2,...,l},yi=-1} 若存在样本点xi使得wxi+b=±1，则称此向量xi为支持向量，此时，d+=d-=1/|w|，margin=2/|w|。分类模型：寻求最优超平面H，使得margin最大。因此