- 0
- 0
- 约2.6万字
- 约 5页
- 2026-03-09 发布于福建
- 举报
第41卷第4期山西大同大学学报(自然科学版)Vol.41No.4
2025年8月JournalofShanxiDatongUniversity(NaturalScienceEdition)Aug.2025
文章编号:1674-0874(2025)04-0080-05
一类带组结构的超高维数据特征筛选
何雯玢,牛勇
(合肥大学人工智能与大数据学院,安徽合肥230601)
摘要:目的目的解决高维数据中组变量筛选的效率和准确性问题。方法方法针对一类带组结构的超高维数据,提出
一种基于边际回归思想的组变量筛选方法,该方法通过将响应变量与组变量分别进行线性拟合,利用残差平方和
来衡量组变量的相对重要程度,从而达到组变量筛选的目的。与单个变量筛选情形类似,在正则条件下该方法能
够选取所有重要组变量的概率趋向于1,即满足确保筛选性质。同时,在改进原有算法的基础上提出一种基于数据
重排思想的阈值选取方法,并提出其迭代版本和贪婪版本来增强组筛选方法的数值模拟表现。结果结果该组筛选方法
在准确性和可靠性上优于其他现有的组变量筛选方法。结论结论该方法适用于高维数据分析领域。
关键词:超高维;特征筛选;组结构;确保筛选性质
中图分类号:O29文献标识码:Adoi:10.3969/j.issn.1674-0874.2025.04.013
近二十年来,随着科技的飞速发展,各行各业涌证明其具有确保筛选性质。同时,改进单变量筛选
现出大量的高维数据,如股票市场中的高频交易数算法,提出基于数据重排思想的阈值选取方法,以提
[1]
据、基因组学数据等。著名统计学家Donoho指出,高数值模拟效果。
这些数据的高维特性使得传统的统计方法在处理问
1基于边际回归的组变量筛选和算法
题时面临着巨大挑战,这促使统计学家改进或发现
[2]
新的方法。自1996年LASSO提出后,一系列惩罚考虑带组结构的超高维数据满足线性模型假
类变量选择方法包括SCAD[3]、ElasticNet[4]、定,利用边际线性组变量拟合的方式来度量组变量
[5][6][7]
AdaptiveLASSO、DantzigSelector、MCP等等被的相对重要程度,从而达到超高维组特征筛选的目
广泛应用于维数接近样本容量的场景。然而,当协的。假定带组结构的数据满足下述线性模型:
[8]JT
变量维数远超样本容量,达到Fan所定义的超高维Y=∑Xβ+ε
j=1jj
场合时,传统统计方法因计算复杂性和稳定性问题T
原创力文档

文档评论(0)