化学结构的表述歧义、规范化方法和数据库集成.pdfVIP

化学结构的表述歧义、规范化方法和数据库集成.pdf

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
化学结构的表述歧义、规范化方法和数据库集成 陈维明 陈湘萍罗 强朱翠娣赵英莉雷小峰徐衍波 (中国科学院上海有机化学研究所,上海200032) 摘要本文简要介绍了化学结构信息在表述上的差异,包括芳香键、互变异构、 立体化学等问题。文章讨论了这些化学结构表述歧义的识别和规范化方法,以及通 过结构规范化和唯一序方法进行化学结构登录的方法。最后介绍了利用结构登录进 行化学数据库集成的实际例子。 关键词化学结构规范化化学数据库集成 1.前言 化学作为自然科学的三大基础科学之一,与其他相关学科有着非常密切的关系。近年来, 科学技术的发展进一步促进了化学和生物、医学、农学、材料科学等学科的交叉和渗透,因 此,化学数据和信息的规模很大,来源非常广泛。美国化学文摘社将化学信息分成5大类80 小类,涵盖了基础科学和应用科学的绝大多数领域。 在中国科学院科学数据库项目的长期支持下,我们经过20多年的努力,根据应用需求先 后建设了一批化学数据库,目前已经涉及化合物结构、化学反应、红外谱图、质谱、分析方 法、药物、天然产物、中药、化学配方、化合物毒性、生物活性、化工产品、化学文献等多 个方面。这些数据来源不同,涉及不同的学科,彼此相对独立。进一步集成和整合这些数据 库,形成化学综合信息系统,面向用户需求发展知识服务是化学数据库下一步发展的目标。 集成和整合不同类型和不同来源化学数据的关键是建立唯一标识。在各类化学信息中唯 有化学结构具有唯一性,同时化学结构特性也是化学物质具有不同化学性质的内在原因。建 立化学结构的唯一标识将涉及对各种化学结构特征的识别和比较,最主要和常见的结构特征 包括环系、互变异构、立体化学等。 2.化学结构特征的表达和识别 建立化学结构的唯一标识通常要对结构中的原子进行唯一排序,根据原子所处的局部环 境确定原子的先后顺序。忽略对任何一种结构特征的比较都将引起模糊,从而无法分辨两个 结构在这一方面的差异,使唯一标识失去实际意义。 由于计算机无法直接处理图形,通常化学结构的计算机处理方法主要根据图论原理以连 接表方式表示化学结构。在连接表中,化学结构信息可以分成3类,即原子性质、键性质、 连接关系和原子组性质,其中原子组性质是指通过一组原子和键(而非单个原子或键)表现 的结构特性。用绝大多数化学结构输入软件,如ISISDraw、JME等输入的化学结构包含化 学结构的原子性质、键性质和连接关系,但是不能提供完整规范的原子组性质,例如环系、 互变异构、立体化学。这一问题的主要原因是一个化学结构往往存在数种符合化学家习惯的 合理画法,例如芳环双键的位置、互变异构的范围、立体键的选择等方面可以有所不同,这 类现象可以统称为结构表述的歧义。由于结构表述歧义的存在,这些原子组性质通常需要通 过特定算法进行识别。这些问题也是化学结构唯一标识和进行各种结构比较的技术关键。 环系是化学结构的重要特征,其中环系的最小环最小集(SSSR)是环系的重要不变量, 常被用作环系的索引参数。通过软件输入的化学结构通常不提供环系的数据需要用算法进行 识别。我们发展了一个高效的环系识别算法,可以从结构连接表中同时识别环系和计算环系 的最小环最小集,图1给出了两个复杂环系最小环最小集的例子。方法具有很高的效率和稳 定性,已经处理了100万以上的化学结构uJ。 7 图1 两个复杂环系及其最小环最小集 在氢缺省的化学结构连接表中,芳环键和互变异构的表述歧义将改变键的性质。由于芳 香环在化学上有比较明确的定义,并且不是所有含有交替单双键的环都是芳香环,化学家往 往需要根据化合物的性质判别一个环系是否是芳香环,而不是仅仅根据结构图。对于化学结 构信息处理来说,重要的不是环系的芳香性,而是对同一个环系的多种结构表述形式进行规 范,保证一种结构图对应一个化合物。因此我们使用一种形式化的结构表示规范后的化学结 构,并发展了专门算法识别具有交替单双键的环系和互变异构部分。此种形式化的结构与芳 香环和互变结构的具体形态没有直接的联系,也不代表任何一个具体的化合物,但提供了具 有交替单双键的环系结构和互变异构可能性的化合物进行结构比较的基础晗1,图2是具有芳 香环和互变异构部分的化学结构规范化处理的实际例子。 互变异构和芳香键的规范化 嚣香;

文档评论(0)

聚文惠 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档