- 2
- 0
- 约5.52千字
- 约 9页
- 2026-06-22 发布于江苏
- 举报
基于互信息的无监督特征选择算法结题报告
一、研究背景与问题提出
在大数据与人工智能技术飞速发展的当下,数据维度爆炸式增长已成为众多领域面临的共性挑战。以计算机视觉、自然语言处理、生物信息学等领域为例,单样本特征维度可达数千甚至上万维。高维度数据在提供丰富信息的同时,也带来了“维度灾难”问题:不仅增加了计算复杂度、延长了模型训练时间,还可能因冗余特征干扰导致模型泛化能力下降,甚至引发过拟合现象。
特征选择作为维度约简的核心手段之一,通过从原始特征集中筛选出最具代表性、区分度的特征子集,能够有效降低数据维度、提升模型效率与性能。根据是否依赖标签信息,特征选择算法可分为有监督、半监督与无监督三类。其中,无监督特征选择因无需人工标注标签,更适用于实际场景中大量未标注数据的处理,具有更广泛的应用前景。
传统无监督特征选择算法如基于方差过滤、基于聚类的方法,往往仅从单一角度衡量特征重要性,忽略了特征间的复杂关联。互信息作为一种衡量随机变量间依赖关系的统计量,能够有效捕捉特征间的非线性、非高斯依赖关系,为无监督特征选择提供了更全面的信息度量依据。因此,本研究聚焦于基于互信息的无监督特征选择算法,旨在突破传统算法的局限性,构建更高效、鲁棒的特征选择框架。
二、互信息理论基础
(一)互信息的定义与计算
互信息(MutualInformation,MI)起源于信息论,用于衡量两个随机变量之间的相互
原创力文档

文档评论(0)