跳转至内容

化学信息来源/化学名称和式搜索

来自维基教科书,开放的书籍,开放的世界

尽管结构搜索通常是搜索化学物质的唯一确定方法,但通过物质标识符(化学名称和各种识别号)或分子式进行搜索可能很方便,或者在某些情况下,对于缺乏结构搜索功能的印刷来源和电子来源来说是必要的。当然,输入“阿司匹林”比绘制其结构快得多。但是,根据数据库的不同,名称搜索可能需要完全匹配,直到标点符号和空格。更复杂的化学物质可能只有系统名称,这些名称往往很长,或者搜索的特定同义词可能不在正在查询的数据库中。此外,密切相关的化合物可能会被遗漏。搜索“1,2-二氯乙烯”可能不会找到顺式和反式异构体的记录,而只会找到通用的混合异构体或未指定物质的记录。在提供化学名称片段/片段搜索功能的地方,有时可能会检索到太多记录。

尽管许多资源都有分子式搜索选项,但分子式远非唯一,检索到的化合物数量从几个到几千个不等。分子式约定因数据库而异,特别是在无机物和多组分物质(如盐、有机金属化合物、聚合物和复杂氧化物)方面。在计算原子数或将分子式输入搜索框时也很容易出错。但是,分子式搜索的一个优点是,可以找到化合物的所有微小变化,例如同位素、互变异构体、矿物形式和立体异构体差异。

有许多优秀的物质标识符代码系统,其中 CAS登记号 (CAS RN) 和 InChI代码 (IUPAC) 目前是最突出的系统。每个系统都为特定结构或命名物质分配一个唯一的识别代码。尽管这些系统非常有用,但必须牢记,结构的任何微小变化(同位素、立体化学、比例等)都会被分配不同的代码号。因此,这些识别代码的精确性既是它们最大的优势,有时也是它们最大的劣势。但是,它们通常是一种快速而全面的方法,可以检索有关特定结构或命名物质(如商标商业材料)的所有信息。

许多物质,特别是在商业中,没有已知的、明确的或完全定义的结构或分子式。在这种情况下,必须依靠命名法和物质标识符代码,如 CAS RN。

由于格式、搜索功能和数据库约定的差异很大,强烈建议用户

1) 咨询搜索帮助文档,了解他们正在搜索的任何资源,以及 2) 通过搜索物质标识符或分子式来测试系统,例如甲醛或阿司匹林等简单且常见的化合物,以确保以正确的方式搜索系统并检索到适当的记录。

如果 a) 物质标识符或分子式搜索未能检索到任何匹配项,b) 已知化合物的结构,以及 c) 该资源具有结构搜索功能,则应执行结构搜索以验证数据库是否不包含有关所需化合物的任何信息。

订阅数据库

[编辑 | 编辑源代码]

订阅数据库提供经过精心策划的专业维护信息。

化学文摘/SciFinder

[编辑 | 编辑源代码]

化学文摘社 (CAS) 提供世界上分布最广、最著名的化学数据库。他们在许多不同的平台上提供他们的主要物质(File REGISTRY)和主要文献数据库(File CAplus),包括第三方系统和他们直接参与的系统。CAS 赞助的平台是

1) SciFinder,一个易于使用、功能强大、固定费率的平台,广泛关注化学、材料科学和生物医学信息,并提供给学术机构、非营利组织和企业机构

2) STN International,一个基于广泛平台的平台,包含来自众多供应商(包括 CAS)的众多数据库,这些数据库通过一个功能齐全、高度复杂的搜索系统结合在一起,允许在需要时使用完整的布尔逻辑来组合术语和多个搜索集以形成复杂模式。

这两个平台上的物质信息都源自 File REGISTRY 数据,尽管在 SciFinder 中,可以通过标记为“探索物质”的链接访问此数据库。SciFinder 旨在供化学家直接使用,在学术界和工业界都很常见。本节的其余部分将假设通过广泛使用的 SciFinder 界面访问 CAS 内容。

尽管 SciFinder 界面功能强大,但 STN International 为更专业的用户提供了 SciFinder 中没有的更高级搜索功能,例如搜索元素组成、材料组成表(包括重量百分比范围)、环系统数据(如环数)以及直接访问所有化合物类别标识符,包括未完全定义的物质。这些特殊的强大技术超出了本章的介绍范围。STN International 用户应咨询有关 File REGISTRY 的文档,例如 STN 数据库摘要表

在 SciFinder 中,在“探索物质”搜索选项下,“物质标识符”搜索词包括 CAS 登记号、化学名称或名称片段以及代码。通过在单独的行上输入每个词,可以同时搜索多个词(最多 25 个)。CAS 提供交互式教程和“操作指南”,包括

尽管 CAS 可能提供了世界上最大、构建最完善的已知物质清单,但需要进行全面搜索以确定专利目的的结构新颖性的搜索者建议咨询尽可能多的其他来源,包括 Markush 结构可搜索数据库、专利数据库和 Reaxys,这些数据库可能包含化合物,特别是那些在 1907 年之前被报道但未在 1907 年之后被报道在文献中的化合物。

CAS 登记号搜索

[编辑 | 编辑源代码]

化学文摘社登记文件 (CAS REGISTRY) 是用于识别化学物质的最大单一数据集合。

CAS 登记号 (CAS RN) 是一个格式为 Y-XX-X 的数字,其中 Y 可以是两位或多位数字,而 X 是一个校验位,例如 494-12-2。CAS 登记是最终权威,因为它是唯一一个将已替换或更正的 CAS RN 链接到当前和正确 CAS 登记记录的数据库。

CAS 登记的覆盖范围最初基于从 1957 年至今从科学文献中识别的物质,其中某些类别(含氟和含硅化合物)可以追溯到 20 世纪初。最近,CAS 追溯性地为从 1907 年到 1966 年的 CAplus 文件中索引的已识别物质分配了登记号,但只分配了 CAS 角色 PREP。一个 数据库计数器 提供有关已注册物质和生物序列的累积数量的信息。

CAS RN 是 CAS 登记簿记录的唯一标识符,这些记录是为以下物质创建的:有机和无机物质、金属、合金、矿物、聚合物、配位化合物(2)、元素、同位素、肽、酶、生物分子序列和核粒子。

简短的 CAS 登记簿记录显示 CAS RN、结构图、分子式和 CA 索引名称,以及指向所有参考文献(CAplus 文件记录)、反应(CAS REACT)、商业来源(CHEMCATS)、监管信息(CHEMLIST)、光谱和实验性质的链接。

点击简短记录的 CAS RN 会显示完整的 CAS 登记簿记录,其中包括其他 CA 索引名称和同义词、已删除的登记号、指向参考文献的链接,以及 CAS 角色的表格显示,用于限制检索(例如制备、用途等)、预测的(ACD/Labs)性质和实验性质(包括 NMR、IR 和质谱),以及文献参考。

无机化合物和合金记录可能会显示成分表,而生物分子记录可能会显示蛋白质或核酸序列。

因此,可以使用 CAS 登记簿来查找

• 与该物质相关的文献参考 • 实验和预测的物理性质数据 • 商业可用性 • 制备方法 • 光谱(MS、IR、NMR、UV) • 来自国际来源的监管信息

有些 CASRN 没有任何文献参考。这是因为公司可以在该物质出现在文献中之前获得 CASRN(通过 CAS 客户服务),或者因为 CASRN 被分配给来自化学目录、网络上的外部物质集合或从编译化学清单(例如,EPA 的 TSCA)中的物质,或者当 CAS 从期刊或专利文献来源注册化合物时,该化合物是盐,会创建两个登记号:一个用于盐,另一个用于母体化合物。参考链接仅显示在盐上,而不是在母体化合物上。

CAS RN(与它们的 CA 登记簿文件记录相关联)出现在 CAplus 文件记录的物质索引中,而不是 CA 索引名称。例如,107326-35-2 而不是

1H-吡啶并[3,4-b]吲哚-1-羧酸,2-(3-丁烯基)-2,3,4,9-四氢-

索引物质的决定基于 CA 的索引理念,该理念侧重于新信息和文章的主要要点。这可能会导致意想不到的结果。例如,在一篇关于“不同阳离子对 Mo(CN)8 配合物的红外光谱的影响”的文章中(CAN 111:122893),每种单独的盐(例如,三钾八氰合钼酸(3-) 三水合物)都被索引。然而,一篇关于“高锰酸根离子-八氰合钼酸(IV) 反应动力学”的文章(CAN 80:137539)中,仅索引了八氰合钼酸(IV) 离子,而不是标题中提到的八氰合钼酸(IV) 钾盐。

CASRN 通常出现在化学手册(例如,Merck Index、CRC 化学和物理手册、Lange 手册、综合化学词典等)、化学供应商目录(例如 Sigma-Aldrich、Strem、Lancaster 等)和期刊文章中。它们是特定化学物质的优秀检索词。

然而,CASRN 仅仅是登录号。因此,化学衍生物、盐等与它们的母体化合物无关,因为它们在可免费搜索的 综合化学词典 中。

钼酸(3-),八(氰基-κC)-,钾(1:3),(DD-8-11111111)或更常见的名称,八氰合钼酸(V) 钾 < K3Mo(CN)8 > 是全面搜索各种盐的难点的一个很好的例子,因为 CAS 已分别注册了该盐,包括它的水合物和阴离子

CASRN 物质
19442-23-0 八氰合钼酸(V) 钾
123711-63-7 二水合物
116188-33-1 三水合物
17845-99-7 八氰合钼酸(V) [阴离子]

类似的困难出现在异构体中,因为每种异构体、外消旋混合物和未指定的“通用”化合物将具有不同的登记号

CASRN 物质
62309-51-7 丙醇 [未指定]
71-23-8 1-丙醇
67-63-0 2-丙醇

糖被注册为开链结构和环状结构,具有不同的 CASRN

CASRN 物质
58367-01-4 葡萄糖
50-99-7 D-葡萄糖
492-61-5 β-D-葡萄糖

2008 年,CAS 与维基百科合作,为广泛的公众兴趣的化学物质提供 CAS 登记号。结果是 Common Chemistry,这是一个网络资源,可以免费通过化学名称或 CAS 登记号搜索大约 7,900 种物质。输入靛红(Isatin)的 CAS RN,91-56-5,会显示一个记录,其中包含 CAS 首选名称、1H-吲哚-2,3-二酮、靛红的 18 个其他名称、分子式、2D 结构图以及指向维基百科关于靛红的文章的链接。

化学名称/名称片段搜索

[edit | edit source]

CAS 物质词典(在 SciFinder 中探索物质,以及 STN International 中的登记簿文件)是现存最大的化学名称单一来源。它包括商品名称、通用名称、倒置名称、非倒置名称、实验室代码、过时名称和官方 CAS 索引名称。可以搜索完整名称和名称片段(段),具体程度取决于使用的搜索平台。通常,必须遵循某些协议来处理名称中的一部分特殊字符。例如,希腊字符会完整拼写出来,并在希腊字符部分的名称前后加一个句点。请注意,在 SciFinder 系统中,搜索将使用或不使用希腊字母周围的句点,但在 STN 命令语言搜索中,句点是必须的。

正如本节的其余部分将清楚地表明,搜索化学名称很棘手。零结果并不意味着该化合物不在数据库中。该名称可能不在数据库中,或者输入了简单的错别字,或者意外地没有遵循搜索约定。只有正确执行的结构搜索、CAS 登记号或分子式搜索才是结论性的。

化学文摘 (CA) 的化学命名法自 1907 年以来一直在不断变化。因此,物质可能具有多个 CA 索引名称,以及文献和商业中使用的同义词。在 2006 年底之前,主要更改仅在每个集体索引期的开始时进行。然而,从 2007 年开始,对 CA 索引名称的更改根据需要进行。

在印刷版 CA 中,化学物质索引 (CSI) 将 CA 索引名称的缩进形式(例如,苯,叠氮基-)链接到相关的摘要。然而,化合物类名称(例如,芳基叠氮化物)在通用主题索引中被索引,同义词和商品/通用名称仅通过 CA 索引指南相关联。

有关 CA 索引名称的一些背景信息,请参见:Charles H. Davis 的 化学命名法 Lite

CAS 登记簿记录可能包含各种旧的 CA 索引名称、同义词和代码,尤其是对于商业化学品而言。例如,苯的 CAS 登记簿记录还包含以下可搜索词:1,3,5-环己三烯;苯;苯;煤焦油;环己三烯;NSC67315;菲;苯基氢化物;焦苯;焦苯;以及 [6]环戊二烯。

上标/下标被搜索为普通字符,希腊字母被拼写出来

             Dicholormethane-d2 for Dichloromethane-d2
             alpha-Acetylnaphthalene for α-Acetylnaphthalene

在搜索 SciFinder 时,首先搜索“化学名称”以与 CA 索引名称或同义词完全匹配,如果找不到,则截断或分割搜索词,然后再次搜索。在使用 CA 索引名称搜索时,必须搜索所有字符

             Benzene, 1,4-dibromo-  not  Benzene, 1,4-dibromo

即使是相当复杂的名称也可以搜索。例如

“2-(3-丁烯基)-2,3,4,9-四氢-1H-吡啶并[3,4-b]吲哚-1-羧酸”

不是 CA 索引名称,也不是作为同义词列出,尽管它是 CA 索引名称的直接形式。因此,它被分解,搜索检索到 8 个 CAS 登记簿记录,包括具有 CA 索引名称的记录

“1H-吡啶并[3,4-b]吲哚-1-羧酸,2-(3-丁烯-1-基)-2,3,4,9-四氢-”

Care must be taken when searching with synonyms.  For example, a search for ‘Potassium Octacyanomolybdate’ retrieves
11 substances. Some examples are:

  • 铝钾八氰合钼酸(IV)
  • 钴钾八氰合钼酸(IV)
  • 镓钾八氰合钼酸(IV)
  • 铁钾八氰合钼酸(V)
  • 镍钾八氰合钼酸(IV)
  • 钾八氰合钼酸(IV)

但是,它不会检索所有相关物质,因为术语“钾”和“八氰合钼酸”可能并不总是存在于同义词名称中。

然而,由于所有与“八氰合钼酸(V) 钾”相关的物质将具有类似的 CA 索引名称,因此一种技术是显示它的 CA 索引名称:钼酸(3-),八(氰基-κC)-,钾(1:3),(DD-8-11111111)-,然后搜索各种 CA 索引名称片段

  • 钼酸(3-),八(氰基-κC)-,钾检索到八氰合钼酸(V) 钾及其二水合物和三水合物。
  • 钼酸(3-),八(氰基-κC)-检索到大约 28 种物质,包括各种阳离子和 Mo(CN)8 阴离子。
  • 钼酸(3-),八(氰基-κC)-,(DD-8-11111111)检索到大约 9 种物质,包括各种有机阳离子和 Mo(CN)8 阴离子
  • 钼酸(3-),八(氰基-κC)-,(DD-8-11111111)-仅检索到 Mo(CN)8 阴离子

搜索同义词片段

             ‘octacyanomolybdate’            retrieves ~68 substances.
             ‘octacyanomolybdate(IV)         retrieves ~14 substances.
             ‘octacyanomolybdate(V)          retrieves only the anion

搜索同义词片段不可靠,因为同义词不会添加到所有 CAS 登记簿记录中。这些名称片段搜索结果通常包含各种无机盐组合、水合物、阴离子和与有机化合物混合的盐。

类似地,搜索“葡萄糖”只会检索到开链物质:葡萄糖和 D-葡萄糖,因为它是两种物质的完整名称同义词。然而,葡萄糖不是 β-葡萄糖(环状异构体)的同义词。类似地,搜索“丙醇”只会检索到:丙醇 [未指定] 和 1-丙醇,而不会检索到 2-丙醇,其同义词是异丙醇。

也可以搜索名称字符串;例如,“钼,与镍的化合物”。

总的来说,结构搜索是首选,因为物质标识符搜索需要完全匹配,并且可能经常无法检索到所有相关物质。

代码搜索

[编辑 | 编辑源代码]

代码包括 GenBank 编号、酶委员会编号、色标编号等。CAS 对代码编号有标准政策。

• 字母后跟数字需要空格 [URB597 --> URB 597]。

• 类似 [数字-数字或字母-字母] 之间的标点符号保留,尽管 1,000 的逗号被删除。

• 数字后跟字母需要合起来。

• 不相似 [字母-数字或数字-字母] 之间的标点符号被删除,除了上面 1 中的情况。当数字明显指定为定位符时,连字符保留;例如,2,4-D。

• Smiles 和 InChI 字符串在结构编辑器中用于生成结构。

分子式搜索

[编辑 | 编辑源代码]

分子式搜索通常会检索到不止一种物质,因为可能存在异构体化合物。例如,CAS 登记处列出了超过 1600 种分子式为 C22H24FN3O2 的物质。

印刷版 CA 提供了分子式索引,将化学式链接到其倒置的 CA 索引名称及其相关摘要。印刷版 CA 中的分子式搜索基于 Hill 系统。Hill 系统列出碳(如果有的话),然后是氢,然后是按字母顺序排列的任何其他元素(例如,C22 H24 F N3 O2)。在没有碳的情况下,所有元素都按字母顺序排列(例如,Al6 Ca5 O14)。这会导致与文献中常见的惯例截然不同的分子式,例如 H2O4S 而不是 H2SO$ 用于硫酸。

然而,SciFinder 被设计为搜索物质,不考虑元素顺序或元素之间的空格。例如,H4SiO4、H4O4Si 和 H4 Si O4 都是可接受的搜索词,C22H24FN3O2 的任何组合也是如此。有时,系统会要求输入空格或大小写来消除歧义,例如,“COS”可以是Cobalt-Sulfur 或 Carbon-Oxygen-Sulfur。

了解盐的点断开式分子式(例如,C15 H24 N2 . 2 Cl H)、加成化合物(C6 H6 . C6 N4)和混合物的概念对于分子式搜索至关重要。额外的规则/约定涵盖聚合物、配位化合物和配位化合物的一个重要子集,有机金属化合物。苯基锂(MF:C6 H5 Li)是有机金属化合物的一个例子。

化学文摘数据库中分子式分配和搜索的约定很复杂,特别是对于复杂物质(如复杂盐和聚合物)。当物质收到点断开式(多组分)分子式时,并不总是显而易见。正确查询的表述还取决于所使用的搜索平台。重要的是要查阅特定于所用平台的文档以及本章末尾列出的其他资源。

也可以搜索嵌入在化学名称中的分子式(即作为物质标识符),但前提是搜索检索结果少于 100 条记录(例如,CuSO4 约 15 条,而 NaCl > 100 条,结果为零)

1. 盐

像氯化钠这样的简单盐被搜索为:< NaCl > 或 < ClNa >

像硫酸钙或磷酸钡这样的无机含氧酸盐必须搜索为:< Ca . H2 O4 S > 或 < Ba . 2/3 H3 O4 P >。这反映了印刷卷的政策,例如,所有硫酸或磷酸的盐都列在酸的分子式(H2O4S 或 H3O4P)下。

此政策也适用于像苯甲酸钠这样的简单有机盐,其搜索方式为:< C7H6O2 . Na >,同样,苯甲酸的 MF 是一个搜索词。

复杂的的有机/有机金属盐通过输入阳离子的 MF . x(阴离子的 MF)进行搜索,其中 x=阴离子的数量。

例如

物质 分子式
三 (2,2'-联吡啶) 铁 (2+) 双 (四氟硼酸盐) C30 H24 Fe N6 . 2BF4
四 (四丁基铵) 八氰合钼酸盐 (4-) C16 H36 N . 1/4C8MoN8

从上面的两个例子可以看出

  • 有机部分被视为中性分子,包括酸性氢原子。
  • 金属被视为一个独立的、未连接的片段。
  • 表示有机酸和金属原子之间的比例。(如果未知,则比例表示为“x”。)

其他盐 MF 的例子

  • 未知比例:C6 H8 O7 . x Na
  • 混合金属盐:C6 H8 O7 . Ca . Na
  • 醇的金属盐:C6 H6 O2 . 1/2 Ba


2. 多组分物质

多组分物质包括盐、水合物、加成化合物、混合物、合金、矿物和金属间化合物,其中每个具有已知结构的组分可能具有自己的连接表,即结构。但是,这些组分结构可能不会指示组分是如何相互键合在一起的。

矿物和合金是多组分物质的例子。高岭石“Al2 H4 O9 Si2”的分子式搜索将检索到矿物(高岭石、叶蜡石、迪开石)和非矿物物质。

具有固定数量元素的合金使用点断开式分子式进行搜索。例如,[Fe . Mn . Ni] 检索到超过 1000 种物质,每种物质的百分比组成各不相同(例如,“镍合金,基体,Ni 70,Fe 20,Mn 10”,这是一个可搜索的 CA 索引名称)。

表格无机物质包括氢氧化铁,它是一个例子,说明 CAS 如何索引具有不确定或多价阳离子的物质。例如,要搜索所有氢氧化铁

< Fe . H O > 检索到 8 种物质 [例如氢氧化铁 (Fe5(OH)12)]

有关更多信息,请参见:http://library.caltech.edu/learning/classhandouts/scifinder.pdf

3. 元素组成搜索

尽管 SciFinder 接口功能强大,但某些更高级的搜索功能仅在专为更专业的搜索人员设计的平台(如 STN International)上可用。元素组成搜索说明了这一点。以下示例使用 STN International 语法,源自分子式字段

  • 元素符号,指示元素的存在 (/ELS),例如,=> S B/ELS 和 H/ELS
  • 元素计数,指定组分或物质中唯一元素的数量 (/ELC 或 /ELC.SUB)
  • 元素式,组分的分子式,不包括表示比例的数字 (/ELF),例如,=> S AL CO LA O/ELF
  • 周期族,元素的列和行标注,例如,=> S B6/PC 或 => S LNTH/PG

化合物类别标识符

[编辑 | 编辑源代码]

SciFinder 的主搜索查询屏幕允许搜索根据化学文摘服务定义的某些类别(但并非所有类别)的物质进行限制。但是,所有这些类别都可以直接搜索并用于将一组化合物限制为特定类别或类别。

类别名称 代码
合金 AYS
配位化合物 CCS
注册概念 CTS
通用注册 GRS
未完全定义的物质 IDS
手动注册物质 MAN
矿物 MNS
混合物 MXS
聚合物 PMS
自由基离子 RIS
环母体 RPS

CI 字段在 STN International 搜索中的一个使用示例是:=> SEARCH PMS/CI(检索聚合物)

此类搜索与其他登记文件搜索结合使用,以缩小答案集。有关其他可能性,请参见 登记数据库摘要表

CAS 角色

[编辑 | 编辑源代码]

角色是 CAS 标准索引术语,分配给每个索引物质以及化合物类别的受控索引术语。这些角色指定了在给定文献引用中关于物质提供的信息的类型。最初的九种角色是分析研究;生物学研究;非制备形成、杂项、出现、制备、性质、反应和用途。在旧版印刷化学物质索引中,这些角色用于细分在更常用的物质下列出的摘要号的长列表。

在 SciFinder 中,这些角色已扩展到 15 个,并追溯分配回 1967 年。制备角色追溯到数据库的开始,1907 年。每当根据一组检索到的物质请求文献引用时,都会有一个选项限制为任何角色或一组角色。这些角色的定义在 SciFinder 的 检索引用时物质的角色定义 中给出。

在 STN International,15 个角色被细分为可搜索的细化类别。例如,现在可以指定不只是制备,而是具体地指定较小规模的合成制备或工业制造。STN 文档中列出了所有角色和子角色(称为“超级角色”和“特定角色”)的完整列表,位于 CAS 角色在 CA/CAplus 快速参考卡 的最后一页。

其他资源

[编辑 | 编辑源代码]

1. Wagner, A.B. 2011. 在 SciFinder 中搜索配位化合物和有机金属化合物。科学与技术图书馆学问题 67 (2011 年秋季)。[互联网]。[引用日期:2012 年 3 月 17 日]。可从以下网址获取:http://www.istl.org/11-fall/tips.html

2a. Kozlowski, A.W. 1986. 配位化合物的介绍。在搜索配位化合物中,第 2 章,第 5-10 页。[互联网]。化学文摘社,1986 年;[引用日期:3/15/12]。可从以下网址获取:http://www.cas.org/File Library/Training/STN/User Docs/searchcoordcomp.pdf

2b. Kozlowski, A.W. 1986. 配位化合物的结构和登记政策。在搜索配位化合物中,第 2 章,第 11-22 页。[互联网]。化学文摘社;[引用日期:3/15/12]。可从以下网址获取:http://www.cas.org/File Library/Training/STN/User Docs/searchcoordcomp.pdf

3. Wagner, A.B. 2011. 在 SciFinder 中搜索无机物质。科学与技术图书馆学问题 64 (2011 年冬季)。[互联网]。[引用日期:2012 年 3 月 17 日]。可从以下网址获取:http://www.istl.org/11-winter/tips.html

Reaxys 是一个可通过网络访问的化学化合物数据库,它结合了

  1. 最初由德国研究所创建的 Beilstein 和 Gmelin 数据库的在线版本,这些研究所分别以这些名称命名
  2. 由各种组织在爱思唯尔(现拥有 Reaxys)的赞助下提供的更新材料
  3. 一个新的英语语言(有机)专利化学数据库。

Beilstein 基于 Beilstein's Handbuch der Organischen Chemie (1771-1980),自 1981 年以来,通过来自 200 多种有机化学期刊的文章进行更新。Gmelin 基于 Gmelin's Handbuch der Anorganischen Chemie (1771-1994),自 1995 年以来,通过来自 100 多种无机/有机金属化学期刊的文章进行更新。一些印刷版的 Gmelin 卷没有包括在内。专利化学数据库仅限于英语语言的美国(US,1976+)、世界知识产权组织(WO,1978+)和欧洲专利局(EP,1978+)专利,分配给国际专利分类代码 C07(有机化学)、A61K(药品、化妆品和相关产品)和 C09B(染料)。爱思唯尔发布了 Reaxys 涵盖的期刊和专利列表

其他专利覆盖范围(1869-1980)来自 Beilstein 和 Gmelin 记录。请注意,许多外国专利可能在 SciFinder 中有美国和/或英国等效专利。有关更多信息,请参阅加州理工学院图书馆的 专利和标准/商标 LibGuide

由于 Beilstein 和 Gmelin 是化学化合物数据库,因此首选对有机化合物进行结构搜索,对无机化合物进行公式搜索。然而,这两类化合物都可以使用化学名称或公式进行搜索。

Reaxys 在其基于表单和高级属性查询屏幕上提供大量搜索选项。通过单击“[+]”符号生成分层下拉列表,显示搜索选项。

在更简单的“属性(基于表单)/标识数据”下,可以使用 Reaxys 和 CAS 登记号、包括同义词的化学名称以及分子式(MF)进行搜索。在“属性(高级)/标识数据”下,还可以通过许多其他方式进行搜索,包括化学名称片段、MF 范围和片段、元素计数、元素或成分数量、分子量、合金成分以及特定于单个配体的字段。对于每个搜索字段,单击“[…]”框会显示内部字典、搜索框和可选择的搜索词。Reaxys 对截断(通配符符号)功能的替代方案是“化学名称片段”字段。

可以对单片段和多片段化合物的精确希尔顺序分子式进行分子式搜索。对于盐类,阴离子的分子式用星号与阳离子隔开。例如,邻苯二甲酰亚胺铜盐的 MF 是 C8H4NO2*Cu。

请注意,许多研究级科学图书馆员拥有印刷版的原始 Gmelin 和 Beilstein 卷,这些卷可能被存放在仓库中,尤其是当机构订阅了 REAXYS 时。一旦人们了解了印刷卷的组织和索引方式,就可以执行高效有效的搜索,尽管它不是最新的。Beilstein 在部分涵盖了 1979 年以前的文献后,停止了印刷版出版。 Gmelin 在 1997 年停止印刷版出版。

有关更多信息,请参阅

免费可用数据库

[编辑 | 编辑源代码]

在过去十年中,互联网上公开提供的免费化学信息资源的数量和质量都有了很大的提高。以下是一些最好的来源。其他高质量的来源可以通过查阅主要学术研究型大学的图书馆指南找到,例如布法罗大学的 化学:互联网资源指南

ChemIDplus Lite 和 ChemIDplus Advanced 是大约 400,000 种物质(约 70% 具有结构数据)的免费可用的结构和命名权威文件,这些物质在国家医学图书馆 (NLM) 数据库中被引用。搜索字段包括化学名称、同义词、CAS RN 和分子式。

有两个搜索选项

  1. ChemIDplus Lite 仅用于搜索化学名称或 CAS RN
  2. ChemIDplus Advanced 用于搜索化学名称、CAS RN、结构、分子式、毒性、物理性质范围和定位码。

来自这两个界面的结果都包含文件定位码,这些码在物质或网站级别上超链接到 NLM 的生物医学数据库、互联网资源以及 超级列表 联邦和州监管机构的汇编。

ChemIDplus Lite 提供有限的“基本信息”和“搜索导航”,而 ChemIDplus Advanced 具有扩展的列表,它提供

  • 一个“放大结构”链接,该链接重新显示化学结构,并带有选中框以“显示 3D 模型”,
  • 一个“结构”链接(在基本信息下),该链接重新显示化学结构,提供 3D 表示,以及 InChI 和 SMILES 结构描述符符号,

ChemIDplus 虽然仅列出了大约 400,000 种化合物,但包含大量可搜索的常见和商品名同义词。

有关更多信息,请参阅

ChemIDplus 常见问题解答(NLM)

PubChem 是 NCBI 的 Entrez 信息检索系统的一部分,旨在提供有关小分子(通常是分子量小于 500 道尔顿的分子)的生物活性信息。PubChem 由三个关联的数据库组成

  • PubChem Compound - 这是用于搜索的默认数据库,包括所有具有计算特性的独特结构。这些化合物是从 PubChem Substance 数据库中提取的。
  • PubChem Substance - 包含对 800 多万种已提交物质的描述;即从各种来源提交到 PubChem 的化学样品。这些样品中所有独特且可明确识别的化合物都会被提取出来并链接到 PubChem Compound 记录中。
  • PubChem Bioassay - 是一个数据库,包含 PubChem Substance 中描述的化学物质的生物活性筛选结果。包括来自各种来源的 180 多种生物测定法。

PubChem 将其记录链接到 PubMed 和 NCBI 的 蛋白质 3D 结构资源 中的生物学性质信息。

使用默认的基本查询屏幕,可以使用化学名称、同义词、分子式或 CAS RN 搜索 PubChem Compound 记录。广泛的“高级搜索”提供原子计数、化学性质范围、立体化学、生物测定范围、到 Entrez 数据库的链接,以及搜索包含特定元素的分子选项。还可以将搜索限制在数据库中的大量特定字段列表中。请注意,在搜索屏幕上,有单独的选项卡或下拉菜单可用于切换到 Substance 和 Bioassay 数据库。

有关更多信息,请参阅

PubChem 课室讲义(加州理工学院图书馆)PubChem 帮助(NLM) - 关于该系统的信息全面且组织良好。

ChemSpider 现由英国皇家化学学会 (RSC) 赞助和维护,是一个免费可搜索的化学结构数据库,拥有来自数百个数据源的超过 2600 万个结构,提供三个查询界面:简单搜索、结构搜索和高级搜索。

简单搜索需要“与分子相关的”文本字符串,例如系统名称、同义词、商品名、注册号、SMILES、InChI 或 ChemSpider ID (CSID)。尽管搜索框下显示的示例中未指出,但也可以输入和搜索分子式。高级搜索界面允许进行更复杂和特定于字段的查询,包括指定化合物中可能存在、必须存在或一定不存在哪些元素。

搜索结果包括名称、同义词、数据库标识符、预测性质(ACD、EPA/EPI、ChemAxon)、光谱;CIF、维基百科文章、专利、药理学链接等,视情况而定。ChemSpider 化合物与 SureChem(一个专利数据库)以及来自各种来源的期刊文章和书籍相链接,包括 RSC、PubMed 和 Google 图书。

化合物也链接回 ChemSpider,但仅从 RSC 文章登录页面(通过“化合物”选项卡)。单击“化合物”选项卡将提供来自 SureChem 的专利选择(美国专利商标局授予的专利和申请、欧洲授予的专利和申请、WO/PCT 和日本摘要)、RSC 文章以及化合物性质。记录也可能包含指向 ChemSpider 合成页面 中的反应的链接。

有关更多信息,请参阅

免费搜索;需要订阅数据

[edit | edit source]

化学字典合集 (CCD) 包含超过 160,000 个条目,包含超过 540,000 种化合物。CCD 以及《化学和物理手册》都是免费可搜索的,但需要订阅才能查看数据。非订阅用户可以使用网页版本作为其在许多图书馆和实验室中保存的相应印刷卷的索引。

CCD 整合了以下可单独搜索的数据库的内容

  1. 碳水化合物词典
  2. 无机和有机金属化合物词典
  3. 天然产物词典
  4. 有机化合物词典
  5. 药物词典(以前称为 PharmaSource)

CCD 同时支持化学名称(包括同义词和 CAS 注册号)和分子式搜索。它还具有“按元素进行的分子式”搜索,允许搜索数据库中具有特定数量元素的所有化合物(例如,3 As)。

每个条目都提供有关化学、物理和生物性质的描述性数据和数值数据;系统名称和通用名称;文献参考;结构图、衍生物和异构体。CCD 的独特之处在于它提供了来自参考来源和数据库的各种独特的文献参考,这些参考未涵盖在 Reaxys 或 SciFinder 中(例如,Aldrich 光谱目录;Fieser & Fieser 的试剂……;Ullmann 和 Kirk-Othmer 百科全书;《药典外编》;Bretherick 的《反应性化学危险手册》;RSC 的《实验室中的危害》;Sax 的《危险性质》……;Browning 的《毒性和代谢》……);或在 Reaxys 中(例如,《有机合成》,该书在 1980 年到 2008 年之间没有被索引;《化学合成试剂百科全书》;以及对书籍章节的引用)。

有关更多信息,请参阅

总结

[edit | edit source]

化学命名法是当今很少有化学家声称的专业领域,但数据库和印刷参考作品中存在强大的搜索功能,这些功能利用了化学名称,包括普通名称和正式名称。另一方面,所有化学家都使用分子式,而 Hill 系统等系统用于排列索引中的分子式提供了有用的、尽管通常不唯一的检索机制。化学文摘社 (CAS) 和许多第三方使用注册号来索引参考作品和数据库中的文档。注册号搜索的精确度无与伦比。CAS 数据库和爱思唯尔的 REAXYS 是非常庞大、健壮的数据库,它们相互竞争,并在许多方面相互补充。像 PubChem 和 ChemSpider 这样的免费资源越来越多,使每个人都能获得关于物质的广泛、高质量的信息。

华夏公益教科书