跳转至内容

化学信息源/结构检索

来自维基教科书,开放世界的开放书籍

结构检索使用化学结构的图形描述作为搜索输入。此类检索通常针对在线化学物质文件中(例如 STN 的登记文件、Reaxys 或免费提供的ChemSpider)的结构数据进行。根据系统允许的结构检索类型,完整的分子或包含分子嵌入结构的任何化合物都将作为答案集检索。可以在分子上的自由位点允许输入分子的无限替换(完整子结构检索),或者可以将替换限制在某些位点(封闭子结构检索)。在 STN 系统上,一旦在登记文件中形成答案集,就可以将其交叉到 CAPlus 或其他文献数据库文件中,以对结构检索中分离出的化合物的主题进行进一步检索。在这些情况下,实际上是在交叉文件中检索化合物的 CAS 登记号(每个化学品的唯一识别号)。访问有关化合物的附加信息(例如毒性、光谱和文献参考文献)的功能是几乎所有提供结构检索的数据库的共同特征。

请注意,现在可以进行考虑手性中心和双键立体化学的检索。立体检索也可以在 STN 上的登记文件和 REAXYS 文件或Reaxys系统(包含较旧的 Beilstein 和 Gmelin 内容以及大量较新的材料)上执行。相似性检索查找在某些方面类似于查询结构的目标分子。这可能是某些生物学特性,例如药物吸收或毒理学,关于代谢。通常,测量的是官能团的相似性。最后,马库什结构检索是专利检索中一项重要的技术,允许检索到的结构有相当大的可变性,是某些文件中提供的另一种选择。

为什么要使用结构检索?
[编辑 | 编辑源代码]

进行子结构检索有很多原因,其中包括

  • 可以关注特定的结构特征。
  • 可以排除不需要的特征。
  • 可以避免命名法的复杂性。
  • 可以评估化合物的创新性。
  • 可以将结构与化学或物理性质或生物活性相关联。
  • 可以将结构链接到化学反应数据库以查看模型化合物或查找特定的反应条件。
  • 可以找到竞争产品或市场线索。

结合其他类型的检索,结构检索是一种非常强大的补充。

STN 登记文件和其他文件中结构检索
[编辑 | 编辑源代码]

截至 2013 年 12 月 31 日,化学文摘社登记文件中出现了超过 7800 万种已注册的化学物质和超过 6500 万种生物序列。其中大部分是在 1965 年之后注册的,但当然,并非登记文件中的所有化合物都是从那时起发现的。2002 年,化学文摘社开始了一个项目,对 CA 数据库中的所有文档进行追溯索引。因此,许多自 CA 或 CAplus 文件建立以来(即 1967 年以来)没有发布任何新信息的化合物现在已添加到登记文件中。

登记文件中数百万种化合物中的大多数都有其登记号链接到 STN 系统上的数据库。登记文件记录的 LC(文件定位器)字段指示在哪些 STN 数据库中可以找到登记号。除了登记文件外,还可以在 STN 上的 REAXYSFILE、CASREACT 等数据库中进行结构检索。类似的文件定位器功能包含在其他化学词典文件中,例如 NLM 的ChemIDplus

登记文件中可以进行几种类型的结构检索,以及不同的分子视图选项和不同的结构输入方法。SciFinder 在一定程度上掩盖了登记文件与 CAplus 文件、CASREACT 及其软件相互关联的其他数据库之间的关系。

在 SciFinder 搜索阶段本身,可以从要检索的答案集中收集大量信息。在“预览”选项中,可以通过原子连接分析样本答案集,或者如果绘制的结构包含它们,则可以通过系统定义或用户定义的可变基团进行分析。一旦构建了结构并检索了答案集,也可以为完整答案集找到此类信息。此时,搜索可以像通过名称或分子式搜索识别化合物一样进行,允许您从 SciFinder 系统的 CAPlus 部分“获取参考文献”或链接到检索到的登记文件记录中的任何图标。

可以通过其他结构特征进一步细化结构检索,或将其限制在市售物质中。一旦细化,可以检索其索引中包含化合物登记号的参考文献。

以下类型的结构检索在 STN 上是可能的

  • 精确检索——检索绘制的物质加上任何立体异构体、离子物质或均聚物,以及具有该结构的同位素标记化合物
  • 家族检索——检索与精确检索相同的化合物集,但还将检索登记文件中表示的任何多组分化合物(盐、混合物或共聚物)
  • 封闭子结构检索——仅允许在某些定义位置的可变节点
  • 完整子结构检索——检索文件中任何以输入结构作为搜索键的记录。

有关 STN 数据库结构检索的更多详细信息,请参见STN 培训网站

使用 SciFinder,可以进行精确、子结构、相似性和马库什检索。同样,有关更多详细信息,请访问SciFinder 培训网站

实际上,登记文件结构检索有几个阶段。第一阶段涉及对庞大的文件进行筛选,以查找具有必要取代基和其他特征的化合物,而不管它们在分子上的位置如何。更占用计算机资源的迭代阶段涉及逐原子、逐键地查看筛选检索中分离出的候选分子。由于此阶段需要大量 STN 的计算机资源,因此对迭代阶段可以查看的化合物数量有限制。必须对大约 5% 的文件运行样本检索,然后才能预测完整文件检索是否会顺利完成。假设预测结果良好,则可以将完整文件中筛选出的候选分子与结构进行比较。否则,必须修改结构才能顺利完成。使用 SciFinder,有一些内置的智能功能可以“自动修复”可能给系统带来麻烦的分子。

Reaxys 上的结构检索
[编辑 | 编辑源代码]

还可以对爱思唯尔的Reaxys系统进行非常精确的结构检索,该系统包含来自 Beilstein 有机化合物手册和 Gmelin 无机和有机金属化合物手册的大部分遗留信息、专利数据库部分以及当前化学文献中物质、反应和性质数据的持续索引。Reaxys 提供了从 18 世纪至今的化学研究的广泛覆盖。截至 2013 年 11 月,Reaxys 数据库包含超过 2200 万种化合物、3500 万个反应和 4500 万篇文献参考文献。


Reaxys 结构编辑屏幕,显示靛红分子(上)和两个搜索结果(下)

Reaxys 具有与 SciFinder 非常相似的结构绘制和搜索选项。可以执行精确和子结构检索。可变基团和原子可以包含在结构中。可以锁定特定位点,防止任何其他原子连接到该原子。与大多数供应商一样,爱思唯尔提供了一些优秀的培训视频和指南,包括本 Reaxys 指南创建物质和反应的结构查询

一般来说,应参考供应商提供的培训资料以获取本文档中所述所有资源的最新信息。详细介绍每个资源的检索机制在实际操作中不可行,即使在该维基教科书中进行介绍,也很快就会过时,因为这些检索系统和数据库的更新和新功能添加非常频繁。

贝氏检索系统和格氏检索系统
[编辑 | 编辑源代码]

贝氏检索系统和格氏检索系统是两个经典的化学信息印刷汇编。印刷版中的大部分信息已转换为电子形式,并在一段时间内作为独立的数据库存在。这两个来源的所有数字信息以及其他数据库现已合并到一个统一的数据库系统中,该系统由爱思唯尔公司创建和维护,称为Reaxys,它也可以在STN国际上作为REAXYSFILE使用。大型学术研究图书馆通常拥有大量的印刷资料,这些资料对于耐心的、勤奋的检索人员仍然具有价值。此类机构的化学图书馆员会维护对印刷版本的实用指南,例如,布法罗大学(贝氏检索系统格氏检索系统)和德克萨斯大学奥斯汀分校(贝氏检索系统格氏检索系统)。

贝氏检索系统用于有机化合物,而格氏检索系统用于无机和有机金属化合物。贝氏检索系统涵盖包含碳以及以下元素的化合物

          H
          Li, Be              B, C,  N,  O,  F
          Na, Mg                 Si, P,  S,  Cl
          K,  Ca                     As, Se, Br
          Rb, Sr                     Te, I
          Cs, Ba

化合物可以是单一成分、盐或混合物(如果它们至少包含一个有机成分)。如果肽含有12个或更少的氨基酸,则会被涵盖。聚合物或缩聚产物不予处理。以下通常不被视为贝氏检索系统中的化合物,但可以在格氏检索系统中找到

  • CO、CS、CO2、CS2、COS、C3O2、C3S2
  • 碳酸及其硫代类似物以及它们与无机阳离子的盐
  • HCN、HOCN、HSCN以及相应的异酸及其所有金属盐和配合物
  • 二氰
  • 光气
  • 甲酸、乙酸和草酸的金属盐

格氏检索系统涵盖贝氏检索系统中未涵盖的化合物,即无机和有机金属化学以及矿物学和冶金学等相关领域。化合物使用诸如配位化合物、合金、陶瓷和无机聚合物等术语进行索引。

贝氏检索系统劳森编号
[编辑 | 编辑源代码]

贝氏检索系统数据库中的化合物也按一个表示各种结构特征的编号进行索引。这就是劳森编号。它代表某些结构片段,可用于结构相似性检索。一般来说,劳森编号越小,片段越常见。贝氏检索系统中的每种物质至少分配一个劳森编号。将劳森编号除以8,可以大致确定包含该化合物的印刷版贝氏检索系统卷的贝氏检索系统编号。这些化合物在印刷版的《贝氏检索系统手册》中分为三大类

1. 脂肪族化合物,卷1-4;系统编号1-449
2. 碳环化合物,卷5-16;系统编号450-2358
3. 杂环化合物,卷17-27;系统编号2359-4720。

不幸的是,贝氏检索系统研究所从未公布用于对有机化合物进行分类的4720个系统编号的含义。但是,现在可以在网上找到劳森编号描述。劳森编号与其他检索键(如分子式、元素范围等)结合使用时非常有效。它在子结构检索中与NOT结合使用时也很有用。

《化学文摘》是化学领域最古老的摘要期刊。它涵盖了1830年至1969年的化学文献。在140年的时间里,《化学文摘》出版了90万页,其中包括200万篇摘要。《化学文摘》于1925年引入了使用里希特体系(不同于希尔体系)的式索引。1956年,它改为希尔体系。之前的标题《化学中央月刊》(1856-1906)仅有作者、主题和专利号索引。InfoChem对该摘要期刊的全文进行了自动化学命名实体识别,从而产生了《化学文摘结构数据库》,该数据库支持结构检索。该数据库既可以作为Web应用程序提供,也可以用于内部加载。它链接到由FIZ-Chemie制作的原始纸质产品的数字化版本。

结构检索大大扩展了化学家从数据库中检索信息的能力,因为检索键是化学家的“母语”,即化学结构。任何化学家,无论其母语是什么,都能理解化学结构。因此,结构检索系统使用化学的通用语言。开发允许在计算机屏幕上轻松绘制所需结构的图形用户界面是化学检索的一项重大进步。现在,一些商业数据库(如化学文摘和Reaxys(贝氏检索系统/格氏检索系统))以及公共系统(如PubChemChemSpider)都具有此功能。探索和学习结构检索系统的所有功能可能需要一些时间,但由此带来的检索效率的提升是值得的。

CIIM链接,供进一步学习

SIRCh链接,用于结构检索

关于此主题的习题集

华夏公益教科书