对应用统计方法评估核函数分类能力的研究应用.docVIP

下载本文档

3
0
约2.16万字
约 25页
2020-09-14 发布于江苏
举报
版权申诉

对应用统计方法评估核函数分类能力的研究应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

应用统计方法综合评定核函数分类能力研究*) 王泳1，2 胡包钢1，2 1（中国科学院自动化研究所模式识别国家关键试验室北京 100190） 2（中国科学院硕士院北京 100049）摘　要本文应用统计方法对支持向量机方法中核函数选择问题进行了研究.文中将“纠正反复取样t测试”引入到核函数选择中，经过其和k-折交叉验证、配对t测试等多个统计方法综合应用，对九个常见核函数分类能力进行了定量研究.同时，文中还提出了基于信息增益评定核函数模式识别能力定量评定准则，证实了该准则是传统评定准则非线性函数.数值试验表明，不一样模型评定准则之间存在差异，但应用统计方法能够从这些差异中发觉部分规律.同时，不一样统计方法之间也存在显著差异，且这种差异对模型评定影响要大于因为评定准则不一样而产生影响.所以，只有应用综合评定方法和准则才能对不一样核函数分类能力进行客观评定. 关键词　核函数选择；模式识别；纠正反复取样t测试；信息增益；非线性函数中图法分类号 TP391 1引言在支持向量机（Support Vector Machines，SVMs）[1]方法中，核函数选择十分关键.研究表明[1]，针对同一分类问题，选择不一样核函数，分类性能可能会相差很大.这关键是因为组成核函数非线性映射是隐函数，且这些隐函数类型是多样可变.所以当大家对特定问题没有任何先验知识时候，极难确定应该选择哪一类核函数进行计算.即使利用泰勒级数展开和傅立叶级数展开方法，已经证实了存在一类最优核，它所对应特征映射能够确保任意两个不连接有界闭集在特征空间中线性可分[2]，但怎样结构这类最优核至今却还缺乏行之有效方法.众多学者从不一样角度对核函数选择[3,4]和结构[5-8]问题进行了有益探讨，但综合性评定研究仍是缺乏. 通常说来，核函数评定指标能够分为两大类：一类来自实际数据试验验证结果；一类来自理论分析所给出界.依据统计学习理论，核函数推广能力强弱和由该函数计算得到分类超平面集合VC维（Vapnik-Chervonenkis dimension）相关， VC维，泛化误差和特征空间中训练样本集和超平面最短距离之间存在以下关系[1] ，（1）是特征空间中包含全部训练样本最小超球半径，是训练样本个数，是特征空间维数.所以，VC维越小，函数推广能力越强.但遗憾是，现在尚没有相关怎样计算任意函数集复杂性（VC维）和推广性界通常性理论，能够得到只是部分估量值[1,7] .所以在处理实际问题时，通常还是以实际数据试验验证结果作为核函数评定数量指标. 依据有限数据试验验证结果进行分类估计性能评定是机器学习领域一个存在较多争议研究领域，这不仅是因为在分类模型估计性能评定体系中存在很多模型评定准则，而且还存在很多不一样模型评定方法（图1）.在实践中，应用k-折交叉验证方法（k-fold Cross-Validation）和正确率准则对分类模型进行估计性能评定是最为常规方法，但需要注意是交叉验证技术是一个启发式技术，未必对多种情况全部适用[9]，尤其是当确定一个学习模型对某个具体问题处理是否真优于另一个学习模型，就需要证实模型之间这种性能差异不只是评定过程中所产生偶然结果，这通常是一项给出置信边界统计试验工作. 图１　分类模型估计性能评定体系文章其它章节组织以下：第2节对模型估计性能评定三种统计方法－k-折交叉验证、配对t测试（paired t-test）[10]、纠正反复取样t测试（corrected resample t-test）[11]进行了对比分析，引入并讨论了纠正反复取样t测试对模型估计性能评定适用性；第3节提出了基于信息增益[12]评定核函数模式识别能力定量评定准则，并证实了该准则在一定程度上能够填补其它评定准则不足；第4节是试验和分析；第5节对文章内容进行了总结并对深入研究方向进行了展望. 2模型估计性能评定方法 k-折交叉验证其基础思想是把样本集（其中）随机划分为k个不相交子集，且每个子集全部有个样本点.分类器T要迭代训练k次，每次全部用集合中数据进行训练，而用集合中数据进行验证.k-折交叉验证估量出分类器T泛化误差率是k次验证误差率平均值.令代表包含样本子集，代表分类器T对样本进行分类结果，则k-折交叉验证估量出分类器T泛化误差率是：（2）（3）定理1. 给定样本集D和分类器T，分类器T真实但未知分类误差率是p，假如在k-折交叉验证中删除D中任意样本并不影响估量出分类器T泛化误差率，则k-折交叉验证评定出泛化误差率是真实误差率无偏估量. 证实：因为删除D中任意样本并不影响取值，所以D中样本是从样本空间中随机选择且和T相互独