一类带组结构的超高维数据特征筛选.pdfVIP

一类带组结构的超高维数据特征筛选.pdf

第41卷第4期山西大同大学学报（自然科学版）Vol.41No.4

2025年8月JournalofShanxiDatongUniversity(NaturalScienceEdition)Aug.2025

文章编号：1674-0874（2025）04-0080-05

一类带组结构的超高维数据特征筛选

何雯玢，牛勇

（合肥大学人工智能与大数据学院，安徽合肥230601）

摘要：目的目的解决高维数据中组变量筛选的效率和准确性问题。方法方法针对一类带组结构的超高维数据，提出

一种基于边际回归思想的组变量筛选方法，该方法通过将响应变量与组变量分别进行线性拟合，利用残差平方和

来衡量组变量的相对重要程度，从而达到组变量筛选的目的。与单个变量筛选情形类似，在正则条件下该方法能

够选取所有重要组变量的概率趋向于1，即满足确保筛选性质。同时，在改进原有算法的基础上提出一种基于数据

重排思想的阈值选取方法，并提出其迭代版本和贪婪版本来增强组筛选方法的数值模拟表现。结果结果该组筛选方法

在准确性和可靠性上优于其他现有的组变量筛选方法。结论结论该方法适用于高维数据分析领域。

关键词：超高维；特征筛选；组结构；确保筛选性质

中图分类号：O29文献标识码：Adoi：10.3969/j.issn.1674-0874.2025.04.013

近二十年来，随着科技的飞速发展，各行各业涌证明其具有确保筛选性质。同时，改进单变量筛选

现出大量的高维数据，如股票市场中的高频交易数算法，提出基于数据重排思想的阈值选取方法，以提

［1］

据、基因组学数据等。著名统计学家Donoho指出，高数值模拟效果。

这些数据的高维特性使得传统的统计方法在处理问

1基于边际回归的组变量筛选和算法

题时面临着巨大挑战，这促使统计学家改进或发现

［2］

新的方法。自1996年LASSO提出后，一系列惩罚考虑带组结构的超高维数据满足线性模型假

类变量选择方法包括SCAD［3］、ElasticNet［4］、定，利用边际线性组变量拟合的方式来度量组变量

［5］［6］［7］

AdaptiveLASSO、DantzigSelector、MCP等等被的相对重要程度，从而达到超高维组特征筛选的目

广泛应用于维数接近样本容量的场景。然而，当协的。假定带组结构的数据满足下述线性模型：

［8］JT

变量维数远超样本容量，达到Fan所定义的超高维Y=∑Xβ+ε

j=1jj

场合时，传统统计方法因计算复杂性和稳定性问题T

更多 >