- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
化学建模和模型集群分析
化学建模和模型集群分析
摘 要 本文简单介绍了化学建模与模型集群分析的思想,并列举了基于模型集群分析的思路与框架。近年来,应用于化学建模各个方面的许多新算法包括奇异样本诊断、变量选择、模型参数与评价、稳健与模型应用域。本文通过应用于不同的数据类型,包括近红外光谱、定量构效关系及代谢组学数据,举例阐述模型集群分析方法的可行性与应用性,为未来开发化学建模新算法提供一个好的思路和框架。
关键词 化学建模; 模型集群分析; 采样; 统计分析; 综述
1 引 言
随着化学量测数据的不断累积和大数据信息处理技术,包括数据发掘和机器学习各种新方法的不断涌现,采用化学建模(Chemical modeling)方法进行化学知识规律发现及建立定量模型等研究得到了飞速发展。此外,在分析化学的发展过程中,由于仪器分析的飞速发展,复杂体系的快速仪器分析,包括近红外和拉曼光谱无损分析及各类波谱如质谱、激光诱导击穿光谱(LIBS)等的分析、代谢组学中核磁共振谱及各种色谱分析、中药色谱指纹图谱分析等,现都已成为了分析化学的重要研究方向[1]。值得提出的是,这样的化学建模的共同特点是它们的模型都可由下述简单算式给出: y=f(X)。式中, y为含n个元素的列矢量,每个元素都表征一个样本的定性特征或定量指标,而矩阵X则为含n行的矩阵,每行为一系列表征样本属性特征(含p个元素)或一个样本的测量谱(波谱或色谱); f(.)为不定的函数关系,它可以是线性的,如主成分回归(PCR)或偏最小二乘(PLS);也可以是非线性的,如支撑向量机(SVM)或人工神经网络(ANN)等。其关系见图1。
由图1可见,此类数据体系(包括紫外、近红外、拉曼光谱分析、定量构效关系和代谢组学数据)是一类极具复杂性的体系,由于其函数关系f(.)是未知的,线性或非线性无法确定,变量与y的关系不明确,没有任何物理或化学定理可作为基础,解空间类似美国著名统计学家George E. P. Box所说的那样,即“所有模型都是错误的,但其中有些是有用的(All models are wrong, and some are useful.)”。所以,对于这样的复杂体系,找到尽量逼近的基空间,并通过有???模型评价方法及其可靠应用域的定义方法十分重要。
近年来,化学与生物领域引入大量高通量分析技术,使得上述模型中的 xi 这个行矢量变得很长,而且其中还有很多变量与yi无关,甚至还有干扰作用[2~5]。此外,由于目前样本数(n)相对较少,出现了在统计学称为维数灾祸的“大p,小n”问题,这是目前统计学及其应用领域研究的重大挑战[6~8]。对于这样的体系,很容易出现模型过拟合,建模须谨慎[9,10]。
2 化学建模与模型集群分析
化学计量学和化学信息学研究的一个主要目标就在于建立一个有效并可靠的化学模型,以对未知的化学样本的浓度/性质等进行预测。从上述的分析可知,这个任务不简单,由于模型完全未知,建模有点类似“瞎子摸象”的任务。而模型集群分析(Model population analysis,MPA)[9,11] 打破传统一次性建模思路,力求最大限度地利用已有样本集的信息,通过随机采样,从不同角度考察数据集的内在性质,通过对所得结果进一步统计分析,获得数据集的内在结构。从这个角度看来,模型集群分析与贝叶斯统计分析的追求后验分布有些类似。而且,模型集群分析中主要是强调集群分析,强调所得的各种不同结果的分布,与一次性建模分析形成了强烈对比。
基于模型集群分析的化学建模算法之构建框架示于图2。它的构建框架主要包括3个基本要素:(1)通过随机采样获取子数据集;(2)针对每个子数据集,建立一个子模型;(3)从样本空间、变量空间、参数空间或模型空间对所有建立的集群子模型的感兴趣的参数进行统计分析,获取有用的信息。
3 模型集群分析的3个基本要素
3.1 随机采样获取子数据集
采样是数据进行统计分析中常用的有力工具[12]。通过随机采样,可以从给定一个数据集的样本或变量空间中获取N个子数据集。如果从样本空间获取,子数据集由部分样本组成,从变量空间获取,则子数据集由部分变量组成; 如果同时从样本和变量空间获取,子数据集则由选取部分样本和部分变量组成。目前,应用于MPA中常用的随机采样方法有4种:(1)蒙特卡洛采样(Monte Carlo sampling)[13]、(2)自助法采样(Bootstrap sampling)[14]、(3)二进制采样(Binary matrix sampling)[15~19]、(4)重排技术(Permutation)[20]。
蒙特卡洛采样,无放回采样,也称刀切法(Jack knife),随机选取一定比例的样本作为训练集,
您可能关注的文档
最近下载
- 17J610-2 特种门窗(二)标准图集.pptx VIP
- 2025年生态环境部在京部属单位招聘(51人)笔试备考题库及答案解析.docx VIP
- 新能源充电桩建设项目监理单位质量评估报告.docx VIP
- 基于ReWorks平台的SD卡驱动程序设计.docx VIP
- 中职《信息技术(基础模块)上册》项目1-教案 信息技术应用基础.docx VIP
- 新时代思想学生读本(高中)5.5《促进人与自然和谐共生》课件.pptx VIP
- (高清版)T∕CECS 831-2021 《木桩工程技术规程》.pdf VIP
- 苏教版四年级数学下册数字与信息.pptx VIP
- 材料采购、管理制度.docx VIP
- nxt乐高机器人搭建图纸.pdf VIP
原创力文档


文档评论(0)