- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
变量选择和换的新方法研究
摘要
摘要
21世纪被誉为生命科学的世纪,仪器和分析技术快速发展,化学和生物学
数据的积累呈指数级增长。然而,对于这些不断增长的海量数据,如何从中发
现更多、更有价值的信息是对化学和生命科学研究的一个巨大挑战。
在解决这些超大规模数据问题时,经常碰到的问题之一就是“维数灾难”。
在低维空间里计算上可行的办法,在高维空间里可能变得全无实际意义。如何
处理含大量变量的超大规模数据集,需要提出新的思路和新的解决办法。对于
这样的高维数据,一个很直观的想法便是选择并保留一些重要变量(变量选择)
或者通过原有变量的线性/非线性组合来代替原来的变量(变量变换)。
本论文的主要内容就是变量选择和变换的新方法的研究。
首先简述了定量构效关系的基本原理,实现步骤以及研究现状,简单介绍
了一些传统的变量选择方法:同时简述了超大规模数据常用的降维方法,包括
变量变换和从统计学角度进行变量选择的一些方法。
接着从三个层次的研究策略提出了变量选择及变换的新方法,包括核函数
方法,多阶统计量变换方法,模式变量方法等。
核函数近年来在机器学习等许多领域获得了重要的应用,本文将其引入偏
最小二乘方法。以样本之间的关系代替原变量之间关系的方式,用于数据的回
归以及分类等。这样数据不需进行变量选择,避免了不同选择方法选择出的变
量不相同的结果,取得了不错的结果。
其次提出了多阶统计量变换方法。统计矩可以反映数据集整体的变化方式,
这里用多阶统计矩构建新的特征变量。将数据分为若干区域,得到每个分区的4
阶统计量,并以此分区信息作为新的变量进行计算,变量数目减少,分类效果
进一步提高。
上述两种方法考虑到了数据的整体和局部信息,但是都没有反映出特征变
量的具体贡献,因此又提出了模式变量的方法。探索了连续变量的模式表达方
法,将连续变量转换成模式变量,进一步减少了变量数,简单地说,模式的组
合就构成了模式变量。针对肿瘤和对照集分别提取出各自特异的表达模式,也
取得了较好的结果。
摘要
在应用研究方面,选取了几个实际应用体系,将上述方法应用于复杂疾病
的诊断、计算蛋白质组学、环境污染物重要性质的预测以及药物辅助设计等研
究,具有很好的应用前景及重要的理论和实际意义。
复杂疾病诊断的应用包括蛋白质芯片(SELDI.TOF)卵巢癌分类和基因芯片
白血病分类,都得到了令人满意的结果,对复杂疾病的早期诊断提供了有价值
的参考结果。
在计算蛋白质组学应用中,对多肽保留时间进行了预测,对蛋白质的定性定
量分析提供了一个比较可靠的方法。
预测持久性环境污染物dioxins保留时间和保留特征值,并结合其与芳烃受
体的对接结果预测毒性,为进一步建立环境中持久污染物的分析体系提供有价
值的理论依据。
本文将KPLS应用于计算机辅助药物分子设计,尝试通过利用分子对接的结
果如对接能量、配体和受体的原子间距离等建立构效关系模型,研究了细胞周
期蛋白依赖性激酶2(CDK2)抑制剂、神经氨酸酶抑制剂环己烯衍生物,今后还
需要进一步深入的研究。
关键词:变量选择,变量转换,核函数,构效关系,多阶统计量,模式变量
Abstract
Inthe boomeddata
21 of and
century,the chemistry developed
biology,quickly
and usoblaiRmoreinformationabout
equipmentsanalysistechnologies.help
to to
翻rucnlresandfunctions.Howobtainvaluable isa
您可能关注的文档
- linqust型,stranberg型及keggin型多金属氧酸盐衍生物性质的密度泛函理论研究.pdf
- la0.9r0.1ga1-xmxo3-α(m=zn2+,mg2+)陶瓷的合成及其电性能研究.pdf
- ln2-xr xnio4(ln=nd,la)纳米复合纤维的制备及高温电化学性质研究.pdf
- malditof ms新基体的研究与应用.pdf
- m5g分子拟平台的建立和蛋白质模型溶液的研究.pdf
- lldpe胀阻燃剂oldhs纳米材料的制备及性能研究.pdf
- mcm-4分子筛的合成、表征及对vb12的吸附研究.pdf
- mbh碳酸和烯丙基酮的不对称烯丙基烷基化反应以及c2轴对称手性胍催化剂的合成研究.pdf
- n-异丙基烯酰胺系粘土聚合物纳米复合水凝胶的合成及结构性能.pdf
- no<,x>在bao表面吸附机理的密度泛函理论研究.pdf
文档评论(0)