化l学计量学第五章.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
化l学计量学第五章

5.3 SIMCA法Ι 水平2的化学模式识别与QSAR 在为训练集的每一个类q构造了模式(5—2a)后,得到Aq、ai、βia、?ak及σq的估计。现试对校验集的样本进行考察:记样本号为P,则其对应参量值为Xip,将其拟合入类q的模式计算: Zi=xip-ai (5--3) 以Zi作为因变量,βia(a=1,2,…,Aq)作为变量,用多元线性回归方法处理: Zi=xip-ai=∑βia ?ap+eip (5--4) (q) (q) (q) (q) (q) (q) (q) (q) Aq a=1 ^ 5.3 SIMCA法Ι 水平2的化学模式识别与QSAR 这时可考察回归得到的?ap值是否落在本类的?ap的范围内。另一方面,由各变量i(共M个)的eip,并考虑自由度为M-Aq可计算残余标准差Sp: Sp=[∑(eip)2/(M-Aq)]1/2 (5--5) Sp实际上是样本p与类q的“距离”的量度,这一残余标准差应与q类的总体残余标准差(So)比较: So=[∑∑(εik)2/[(Nq-Aq-1)(M-Aq)]1/2 (5--4) M (q) (q) (q) (q) k=1 ^ (q) ^ i=1 (q) i=1 M Nq (q) 5.3 SIMCA法Ι 水平2的化学模式识别与QSAR 这里i按变量数M求和,k按q类中样本数Nq求和,计算时考虑到了与主成分分解所取得Aq数有关的自由度。 如(Sp)2与(So)2比较,发现前者显著大,则可判别p不属于q类。 将样本p再一一对训练集中其余各类进行拟合,我们可能得到几种不同结果: (1)样本可唯一地归于类q。借F检验可证明这一点。这种情况下,P与其它类的距离,即使其中那个距p最近者,按F检验亦能明确否定P不属该类。 (q) (q) 5.3 SIMCA法Ι 水平2的化学模式识别与QSAR (2)样本P可判别属于q1,q2,…,qn n类。这种情况可能表明P确实同时属于这些类,例如某种化合物同时有几种活性;但也可能是对于样本P而言,训练集拥有的信息不足以区分这几个类属。 (3)样本P不属于训练集中任何一类,即该样本是一个异常样本,应属于某一个新类(这就是水平2的化学模式识别与QSAR区别于水平1之处)。这里需要指出,在训练集中本身可能存在异常样本。迄今为止的讨论,是以拥有已知样本的归类作为分类依据的,但SIMCA本身有能力检验这些“已知”样本的归类是否万无一失。 5.3 SIMCA法Ι 水平2的化学模式识别与QSAR 为此,对训练集中某一样本P(情况与前述未知样本P类似,不同处是这个样本P是训练集中的)。可按式(5—3、4、5)进行对q类的拟合,得到的Sp可按下式进行F检验: F=(Sp)2. /(So)2 这里Sp是按式(5--5)得到的训练集中样本P的残余标准差,校正因子Nq/(Nq-Aq-1)考虑了样本P本身参与了训练集样本计算有关α、β参量的过程。 (q) (q) Nq Nq-Aq-1 (q) (q) 5.3 SIMCA法Ι 水平2的化学模式识别与QSAR 按上式计算得的F与临界F值[相应自由度为(M-Aq)及(Nq-Aq-1)(M-Aq)]比较。如结果表明超出了标准F范围,则要考虑训练集中这个样本并不属于q类,如也不属于训练集中任何其他类,则说明这个样本应从训练集中弃去。不过,这种处理宜慎重,应力求得到实验证实。例如,有时这种情况的发生是由于标签混淆。训练集中被删除的样本不应超过10%,删除后有关各类的模式及参量应重新计算。 5.4 SIMCA法Ⅱ 水平3、4的化学模式识别与QSAR 现进一步讨论除参量矩阵X外,还存在定量活度数据的情况。如每一个样本只有单一的一种活度标度,则是水平3的化学模式识别与QSAR,如每个样本有一个以上的活度标度,即每个样本给出一个活度矢量,整个样本集将有一个活度矩阵Y,这是水平4的化学模式识别与QSAR。 5.4 SIMCA法Ⅱ 水平3、4的化学模式识别与QSAR 水平3的化学模式识别与QSAR可按PCR(主成分回归)方法处理。将每一类的X矩阵仍按前一节所述方法作主成分分析[式(5--2)],得到的每一维a与样本K对应的?ak,均应与各样本的活性组成的矢量y中对应于样本k的元素yk相对应。也就是说,可将?ak与yk回归,如有线性关系,作线性回归;如无线性关系,作多项式拟合。在进行了这一数据处理之后,未知试样先按前节(§5.3)的办法,根据其x数据能拟合到训练集的哪一各类,确定其类别;再根据该样本的?ak值,从前述已为该类建立的?ak与yk之间的函数关系,估计该未知样本k的活性值yk。 5.4 SIMCA法Ⅱ 水平3、4的化学模式识别与QSAR 在水平4,则将有一个Y

文档评论(0)

feifei1 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档