网站大量收购独家精品文档,联系QQ:2885784924

化学信息学-绪论.ppt

  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
化学信息学-绪论

1.3.3.3 聚类(Clustering) 聚类分析(CA)是由Tryon在1939第一个使用,事实上CA 包含了大量的分类算法。一个最普通的是如何使用分类学将实验数据分成有意义的不同类别。CA的方法就是为了解决这个问题。目前,已有许多的CA算法,总的可以分成两类:即分级聚类和不分级聚类。分级聚类将研究的对象按树状结构进行重新安排。 Javis-Patrick是最早使用CA对化学结构进行聚类的。正确的聚类分析要依靠下面三点: (1)选用适当的结构表示;(2)选用合适的数据标准化方法;(3)选择合适的聚类分析算法和适当的参数设置。当大量的实验数据的实验条件和量刚不一样时,数据标准化是这些数据能够进行比较的基础。 线性标准化: 比例标准化: Z-score标准化: 一般地,线性标准化使用的较多,Z-score标准化必须要求xi 符合Gaussian 分布。聚类分析的一个缺点是在进行聚类分析之前必须先确定数据应该分成几类,并且不容许出现奇异数据。 1.3.3.4 分割聚类(Partition clustering) 分割算法也有许多种,如二杈树,非参数法等。由于很难使用回归或参数分类法对奇异数据类型进行分类,过多的描述符也使得聚类分析无法进行,一般就用二杈树方法解决这类问题。目前最常用的二杈树算法是递归分割(recursive partitioning ,RP)。有文章报道使用递归分割算法在一个小时内能将超过100,000 化合物和2,000,000 描述符进行分类。递归分割算法也可用于建立多元回归模型。一个最大的优点就是分割算法和和聚类分析算法一样能够解决许多分类问题。 * 化学信息和化学信息学 自从化学学科出现以来,信息的记载、组织与交流对化学学科的发展起了重要的作用,同时也成为化学学科的一个重要组成部分。这是因为化学实验的记录资料具有长远的时间意义。在化学学科中,化学家根据百年以前的记录资料从事科学研究的例子并不罕见。另外,化学物质结构的记录与检索需要建立独特的记录系统。随着计算机技术的发展,化学家必须建立自己的信息表示、记录与管理系统,以适应时代的要求。 化学信息 化学信息可分为两大组成部分: 化学物质的化学信息:利用科学的原理和方法通过测量得到的化学成分的相关信息,如物质的物理、化学性质,物质中各成分的定性、定量以及结构信息,分子间的相互作用信息,化学反应的信息等。 媒体形式的化学信息:化学信息的记录形式,如图书、期刊、专刊、专利、数据库以及音像资料等,通过化学信息的传播使化学家们共享测量的原理、方法及测量结果。 化学信息学是近年来发展起来的新学科,它的产生与发展是基于化学信息量指数般增长,特别是组合化学及高通量筛选的迅速发展。化学信息学的产生与发展是与药物研究与开发息息相关的,但它的应用却覆盖化学学科的各个领域,如农业化学、分析化学、合成化学、物理化学等。近年来,国际上已出版与化学信息学有关的杂志,出现众多的化学信息学公司,许多大学纷纷开设化学信息学课程,培养化学信息学人才。 1.1 化学信息学的起源及历史 1.1.1 信息学的起源 上世纪40年代,以申农(C.E.Shannon)《通讯的数学理论》、维纳(N.Weiner)《控制论—动物和机器中的通讯与控制问题》问世为标志,信息论诞生了,它是科学发展史上的里程碑,其伟大贡献和深远影响是前所未有的。 1959年,美国宾夕法尼亚大学莫尔电子工程学院首先应用了“信息科学”的概念,这一概念既包括了信息理论又包括了信息技术。出现了:以计算机为代表的“计算机信息科学”;以文献处理自动化为代表的“图书馆信息科学”和以申农通讯信号计量理论为核心的“全信息信息科学”。三者的共同特征是:仅研究特定领域中的某些信息,对其它领域中的信息不予充分的关注与考虑。 上世纪60年代初,以申农信息论为基础的信息科学得到了一定的发展,新概念和新理论不断涌现 。 20世纪80年代以来,在申农原有信息论的基础上分别在模糊信息、概率与非概率信息、语法信息、语义信息、语用信息等方面做了大量的工作。在此基础上,人们提出了广义信息论。 1982年美国普林斯顿大学的马克卢普(F.Mchlup)在美国聚集了当时不同信息研究领域的众多学者发起了一个信息的多学科交叉的研究运动,信息理论的研究开始向其它科学领域渗透和扩展,诞生了40多种部门信息学,并发表了继申农、维纳之后的又一本经典著作《信息研究:学科之间的通讯》。 1994年,德国一批学者又发起了一个新的交叉信息科学的研究运动,开拓了部门信息学的一些新领域。虽然,研究的范围更加广泛,但是,并没有做出实质性的评论与创新性的理论。 90年代后期,部门信息学得到了蓬勃的发展,除

文档评论(0)

yurixiang1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档