- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
优秀毕业论文,完美PDF格式,可在线免费浏览全文和下载,支持复制编辑,可为大学生本专业本院系本科专科大专和研究生相关类学生提供毕业论文范文范例指导,也可为要代写发表职称论文提供参考!!!
摘要
本论文从模型选择的角度研究如何处理高维的,强相关的,多维
共线性又带有噪音的数据。主要包括三章:
第二章,我们提出了一种用于多主成份的光谱数据分析的波长区
域选择算法,即弹性网结合偏最小二乘的组变量选择方法
的预测变量波长区域。首先,一些与响应变量相关的预测变量被选择
出来并根据弹性网估计子的组效应分成一些子变量组。每个子变量组
中的变量都是强相关的。然后我们在交互验证的均方根误差
(RMSECV)的标准下,提出了留一组的策略用来进一步的收缩变量,
降低模型复杂度。现实的近红外数据实验结果表明,EN.PLSR算法
比全谱的最11,-乘方法和移动窗最小二乘方法效果要好,特别是当数
据集呈现强相关的时候。
第三章,我们同样从组变量选择的角度考虑强相关的多维共线性
的数据的变量选择和模型估计问题,提出了一种新颖的组变量选择方
LASSO惩罚诱导出的两种组变量选择机制,能很好地统一在LASSO
的框架上并能用有效地解出。我们利用模拟的和真实的数据检验
WFEN模型,结果表明我们的算法与其他的LASSO类型的方法相比
在处理多维共线性性数据时有较大的优势。
第四章,我们提出了一种用于用于研究化合物的生物活性与描述
子之间的所谓的结构.活性关系(SAg)的非线性分类方法。该方法主要
KPCA去除数据中的噪音之类的冗余信息,然后用核定义特征空间上
的一些主成份来发掘训练数据集中潜在的数据结构。线性支持向量机
利用最大间隔超平面得到了KPCA转换空间上的最大推广性能。与
单纯的初始空间上的线性支持向量机和另外两种非线性支持向量机
的外部验证和内部验证结果表明,KPCA+LSVM算法具有很强的竞
争力。
关键词模型选择,组变量选择,LASSO,弹性网,权融合LASSO,
强相关,核方法,核主成份分析
ABSTRACT
Thisdissertation howtodealwiththe
investigates
as
datawithnoiseviewedfrommodel
correlated,multi-collinear
strongly
selection.Threemain areincludedinthethesis:
parts
In novel selection
two,a wavelengthregion algorithm,
chapter
calledelasticnet variableselectionwith least
grouping along partial
for
squareregression(EN-PLSR),isproposedmulti—componentspectral
data EN—PLSR can select
analysis.The algorithmautomatically
successivecorrelated variable relatedtothe
strongly predictiongroups
variabletwo ofcorrelated are
response by steps.First,apart predictors
anddividedinto meansofthe effectof
selected subgroupsby
文档评论(0)