- 1、本文档共27页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
对应用统计方法评估核函数分类能力的研究
应用统计方法综合评估核函数分类能力的研究*)
王 泳1,2 胡包钢1,2
1(中国科学院自动化研究所模式识别国家重点实验室 北京 100190)
2(中国科学院研究生院 北京 100049)
摘 要 本文应用统计方法对支持向量机方法中核函数选择问题进行了研究.文中将“纠正重复取样t测试”引入到核函数选择中,通过其与k-折交叉验证、配对t测试等多种统计方法的综合应用,对九个常用核函数的分类能力进行了定量研究.同时,文中还提出了基于信息增益的评估核函数模式识别能力的定量评估准则,证明了该准则是传统评估准则的非线性函数.数值实验表明,不同模型评估准则之间存在差异,但应用统计方法可以从这些差异中发现一些规律.同时,不同统计方法之间也存在显著差异,且这种差异对模型评估的影响要大于由于评估准则的不同而产生的影响.因此,只有应用综合的评估方法和准则才能对不同核函数的分类能力进行客观评估.
关键词 核函数选择;模式识别;纠正重复取样t测试;信息增益;非线性函数
中图法分类号 TP391
1引言
在支持向量机(Support Vector Machines,SVMs)[1]方法中,核函数选择十分重要.研究表明[1],针对同一分类问题,选择不同的核函数,分类性能可能会相差很大.这主要是因为构成核函数的非线性映射是隐函数,且这些隐函数的类型是多样可变的.所以当人们对特定问题没有任何先验知识的时候,很难确定应该选择哪一类核函数进行计算.虽然利用泰勒级数展开和傅立叶级数展开的方法,已经证明了存在一类最优核,它所对应的特征映射可以确保任意两个不连接的有界闭集在特征空间中线性可分[2],但如何构造这类最优核至今却还缺乏行之有效的方法.众多学者从不同的角度对核函数选择[3,4]和构造[5-8]问题进行了有益的探讨,但综合性的评估研究仍是缺乏的.
一般说来,核函数的评估指标可以分为两大类:一类来自实际数据的实验验证结果;一类来自理论分析所给出的界.根据统计学习理论,核函数推广能力的强弱与由该函数计算得到的分类超平面集合的VC维(Vapnik-Chervonenkis dimension)相关, VC维,泛化误差和特征空间中训练样本集与超平面的最短距离之间存在以下关系[1]
, (1)
是特征空间中包含所有训练样本的最小超球的半径,是训练样本的个数,是特征空间的维数.因此,VC维越小,函数的推广能力越强.但遗憾的是,目前尚没有关于如何计算任意函数集的复杂性(VC维)以及推广性界的一般性理论,能够得到的只是一些估计值[1,7] .所以在解决实际问题时,通常还是以实际数据的实验验证结果作为核函数评估的数量指标.
根据有限数据的实验验证结果进行分类预测性能评估是机器学习领域的一个存在较多争议的研究领域,这不仅是因为在分类模型预测性能评估体系中存在很多模型评估准则,而且还存在许多不同的模型评估方法(图1).在实践中,应用k-折交叉验证方法(k-fold Cross-Validation)和准确率准则对分类模型进行预测性能评估是最为常规的方法,但需要注意的是交叉验证技术是一个启发式技术,未必对各种情况都适用[9],尤其是当确定一个学习模型对某个具体问题的解决是否真的优于另一个学习模型,就需要证明模型之间的这种性能差别不只是评估过程中所产生的偶然结果,这通常是一项给出置信边界的统计实验工作.
图1 分类模型预测性能评估体系
文章的其它章节组织如下:第2节对模型预测性能评估的三种统计方法-k-折交叉验证、配对t测试(paired t-test)[10]、纠正重复取样t测试(corrected resample t-test)[11]进行了对比分析,引入并讨论了纠正重复取样t测试对模型预测性能评估的适用性;第3节提出了基于信息增益[12]的评估核函数模式识别能力的定量评估准则,并证明了该准则在一定程度上可以弥补其它评估准则的不足;第4节是实验与分析;第5节对文章内容进行了总结并对进一步研究的方向进行了展望.
2模型预测性能评估方法
k-折交叉验证
其基本思想是把样本集(其中)随机划分为k个不相交的子集,且每个子集都有个样本点.分类器T要迭代训练k次,每次都用集合中的数据进行训练,而用集合中的数据进行验证.k-折交叉验证估计出的分类器T的泛化误差率是k次验证误差率的平均值.令代表包含样本的子集,代表分类器T对样本进行分类的结果,则k-折交叉验证估计出的分类器T的泛化误差率是:
(2)
(3)
定理1. 给定样本集D和分类器T,分类器T真实但未知的分类误差率是p,如果在k-折交叉验证中删除D中任意的样本并不影响估计出的分类器T的泛化误差率,则k-折交叉
您可能关注的文档
- 对定海城区校外托管机构的现状调查与策略研究.doc
- 对客户风险承受力的分析试题和答案.doc
- 对家庭暴力司法干预现状的思考(一).doc
- 对家长的讲话稿.doc
- 对宽带帐号安全威胁分析以及防范的方法.doc
- 对宽带接入市教育城域网的实践与思考.doc
- 对小学校本课程开发和实施的建议.doc
- 对小学生计算失误的分析和方法提高.docx
- 对小学科学教学现状的思考.doc
- 对小学英语FVXYYPSR活动课的几点思考.doc
- 2025年医药卫生考试-医学高级专业技术资格答辩历年参考题库含答案解析(5套100道单选题合辑).docx
- 2025年综合类-健康教育与健康促进(医学高级)-社会医学历年真题摘选带答案(5套单选100题合辑).docx
- 2025年综合类-儿外科住院医师-普通外科历年真题摘选带答案(5卷单选题100题).docx
- 2025年初级钳工(官方)-机械设备保养与维修历年参考试题库答案解析(5套共100道单选合辑).docx
- 2025年综合类-化工总控工考试-化工总控工考试-锅炉水处理工历年真题摘选带答案(5卷100道合辑-.docx
- 2025年经济类-中级经济师-中级经济师(经济基础知识)历年真题摘选带答案(5卷单选题100题).docx
- 2025年医院三基考试-临床护理三基(应知应会)历年参考题库含答案解析(5卷单选一百题).docx
- 工程档案员业绩汇报与成果展示.docx
- 2025年综合类-一级结构工程师专业知识-一级结构工程师专业知识-一级结构工程师基础知识-计算机应用.docx
- 2025年医学高级职称-卫生毒理(医学高级)历年参考题库含答案解析(5卷单选100题).docx
最近下载
- 矽力杰产品规格书SY5055.pdf VIP
- 道闸项目报价清单.xlsx VIP
- 贵州省预防接种技能竞赛理论考试题库资料(含答案).pdf VIP
- AASHTO-LRFD-SI-2007(4)桥梁手册第四章中文版.doc VIP
- AASHTO LRFD Bridge Design Specifications(AASHTO LRFD桥梁设计规范).docx VIP
- 迅达常用备件识别号查询手册_Ae5.pdf VIP
- 数学学科业务工作报告.pdf VIP
- 2023年春学期人教版初中物理九年级下册教学进度表.docx VIP
- 基于AASHTO沥青混凝土路面设计方法的应用与研究.doc VIP
- 小班科学方方和圆圆教案反思.docx VIP
文档评论(0)