一类带组结构的超高维数据特征筛选.pdfVIP

  • 0
  • 0
  • 约2.6万字
  • 约 5页
  • 2026-03-09 发布于福建
  • 举报

一类带组结构的超高维数据特征筛选.pdf

第41卷第4期山西大同大学学报(自然科学版)Vol.41No.4

2025年8月JournalofShanxiDatongUniversity(NaturalScienceEdition)Aug.2025

文章编号:1674-0874(2025)04-0080-05

一类带组结构的超高维数据特征筛选

何雯玢,牛勇

(合肥大学人工智能与大数据学院,安徽合肥230601)

摘要:目的目的解决高维数据中组变量筛选的效率和准确性问题。方法方法针对一类带组结构的超高维数据,提出

一种基于边际回归思想的组变量筛选方法,该方法通过将响应变量与组变量分别进行线性拟合,利用残差平方和

来衡量组变量的相对重要程度,从而达到组变量筛选的目的。与单个变量筛选情形类似,在正则条件下该方法能

够选取所有重要组变量的概率趋向于1,即满足确保筛选性质。同时,在改进原有算法的基础上提出一种基于数据

重排思想的阈值选取方法,并提出其迭代版本和贪婪版本来增强组筛选方法的数值模拟表现。结果结果该组筛选方法

在准确性和可靠性上优于其他现有的组变量筛选方法。结论结论该方法适用于高维数据分析领域。

关键词:超高维;特征筛选;组结构;确保筛选性质

中图分类号:O29文献标识码:Adoi:10.3969/j.issn.1674-0874.2025.04.013

近二十年来,随着科技的飞速发展,各行各业涌证明其具有确保筛选性质。同时,改进单变量筛选

现出大量的高维数据,如股票市场中的高频交易数算法,提出基于数据重排思想的阈值选取方法,以提

[1]

据、基因组学数据等。著名统计学家Donoho指出,高数值模拟效果。

这些数据的高维特性使得传统的统计方法在处理问

1基于边际回归的组变量筛选和算法

题时面临着巨大挑战,这促使统计学家改进或发现

[2]

新的方法。自1996年LASSO提出后,一系列惩罚考虑带组结构的超高维数据满足线性模型假

类变量选择方法包括SCAD[3]、ElasticNet[4]、定,利用边际线性组变量拟合的方式来度量组变量

[5][6][7]

AdaptiveLASSO、DantzigSelector、MCP等等被的相对重要程度,从而达到超高维组特征筛选的目

广泛应用于维数接近样本容量的场景。然而,当协的。假定带组结构的数据满足下述线性模型:

[8]JT

变量维数远超样本容量,达到Fan所定义的超高维Y=∑Xβ+ε

j=1jj

场合时,传统统计方法因计算复杂性和稳定性问题T

文档评论(0)

1亿VIP精品文档

相关文档