跳转到内容

化学信息来源/通用搜索策略

来自维基教科书,开放书籍,开放世界

引言:搜索引擎与数据库

[编辑 | 编辑源代码]

寻找任何类型信息最常见的首要步骤是使用互联网搜索引擎,例如谷歌。搜索引擎是一种计算机程序,旨在检索与输入的搜索词相对应的基于互联网的资源(网页、文件、图像等)。通常,搜索结果中不会提供太多额外信息。搜索结果本身可能会因用于编译和返回结果的程序而异。对于专业或学术信息,包括化学信息,通用搜索引擎在两个关键方面存在不足

  1. 它们在基本层面上非常广泛。当未经细化的信息搜索检索到太多无关结果时,这会导致用户沮丧,其中一些结果可能不适合学术或工业研究项目。
  2. 它们本质上仅限于允许搜索引擎索引软件(通常称为网络爬虫或蜘蛛)访问的在线项目。因此,对于没有在线表示的期刊或书籍(一些小型出版商和较旧的标题)或阻止网络爬虫的网站/数据库,搜索引擎无法访问其内容也无法将其包含在搜索结果中。

对于任何给定的基于文本的电子搜索引擎,都可以采用多种搜索策略来帮助缓解问题 1。这些策略包括使用布尔运算符来缩小或扩大特定术语的搜索范围,使用截断或“通配符”符号来提供对基本搜索词的可变匹配,以及将短语括在引号中以确保完全匹配短语。第 2 节 - 搜索策略更详细地描述了其中一些技术。

使用特定主题的数据库有助于解决问题 1 和问题 2。数据库是可搜索的实际信息存储库,与搜索引擎不同,搜索引擎仅提供指向信息的链接。数据库可能以印刷、在线或电子方式存在,但处于脱机状态,例如 DVD。数据库通常由控制数据库结构、数据库中使用的首选词语以及可以执行的搜索类型的个人或组织维护。通过选择合适的数据库 - 一个涵盖感兴趣主题的数据库 - 搜索更有可能最初返回更多相关结果。特定主题的数据库还关注所有可用文献,即使来自仍以印刷形式出版或更流行的期刊或资源,或尚未数字化且处于档案状态的材料。

成功浏览主题数据库需要两项关键技能

  1. 了解数据库在子学科(甚至单个期刊)、会议论文或论文等文档类型以及时间段方面的覆盖范围;
  2. 了解主题和特定数据库的语言,包括首选搜索词(称为索引词、补充词、关键词等),以及分类术语,这些术语可能因数据库而异。

培养技能 1 涉及熟悉特定数据库。通常,可以在公司或数据库网站上找到覆盖信息。技能 2 是通过研究主题并利用文章级别和数据库级别提供的的信息来自然培养的。技能 2 的发展还涉及使用前面提到的搜索策略,并将贯穿本章的相关数据库或资源部分。特别是,化学文献可以通过视觉术语(即化学结构)以及文本进行搜索,这带来了自身的挑战和机遇。

第 3 节 - 电子信息来源类型概述了可用于搜索不同类型信息的各种电子来源,并推荐了每种来源的适当方法。

第 4 节 - 化学数据库和搜索引擎概述了一些最流行的化学信息数据库和相关平台。一些数据库可以通过多个平台访问。

最后 第 5 节 - 摘要和补充信息第 5 节提供了简短的摘要,并包含指向进一步阅读和补充信息的链接。

搜索技巧

[编辑 | 编辑源代码]

由于绝大多数当前搜索是在电子界面上执行的,因此本节将重点介绍将特定搜索技术应用于这些界面。这些技术中的大多数将在各种搜索引擎和数据库中起作用。将指明何时提供特定数据库的特定信息。


布尔搜索运算符

[编辑 | 编辑源代码]

布尔搜索运算符显示搜索中不同概念或词语之间的逻辑关系。

为了举一个具体的例子,假设我们正在使用布尔运算符来表达对 Doc's Gourmet Bakery 的外送订单。假设运送甜点的盘子是文档,馅饼、蛋糕和冰淇淋是这些文档中的词语。放盘子的托盘代表答案集。

最常见的布尔运算符是

  • OR - 用 OR 运算符连接的概念是同义词或以某种方式相关。

OR 运算符通过包括首字母缩略词、缩写和数据库中文档索引中可能使用的类似术语来扩大搜索范围。答案集中的一个文档可能只包含一个术语,另一个文档可能包含另一个术语,第三个文档可能包含两个、三个或所有 OR 语句中的术语。OR 布尔运算符将所有这些文档都放入最终答案集中,即使给定文档中只存在一个术语。

英语单词“or”的正常用法意味着选择,在最终选择中只可能出现一个东西。在布尔意义上,OR 实际上抓取所有项目并将它们放到一个集合中。OR 运算符的一种特殊变体是 XOR。XOR 仅当 OR 语句中的一个术语存在时才检索文档,但会跳过包含两个术语的任何文档。

示例:pie OR cake

如果 Doc's Gourmet Bakery 中的每块馅饼和每块蛋糕都放在自己的盘子上,并排列在一个巨大的托盘上,我们将满足搜索(pie OR cake),并且托盘将代表我们的答案集。由于未使用 XOR 运算符,因此甚至可能有一些盘子同时放有馅饼和蛋糕。在维恩图中,表示上面两个圆圈的所有内容都将在订单中被提取和运送。上面两个圆圈的重叠部分意味着有些盘子肯定会在上面同时放有馅饼和蛋糕。

  • AND - 使用 AND 运算符组合不同的概念以确保它们都出现在同一个文档中。

在日常英语中,“and”用于对可能相似也可能不相似的事物进行分组。在布尔搜索中,所有与 AND 运算符连接的术语都必须出现在答案集中的每个文档中。

示例:cake AND ice cream

在这个例子中,我们订单中的每一块蛋糕都会放在它自己的盘子上,上面放一些冰淇淋,以满足搜索条件,只有这些盘子才会放在运送的托盘上。底部圆圈的两个阴影部分代表了这种搜索。

  • NOT - 使用 NOT 运算符将一个概念从最终答案集中排除。

示例:(cake AND ice cream) NOT chocolate

现在,让我们对搜索进行进一步的细化,这在维恩图中并没有真正说明。假设你对巧克力过敏,但 Doc's Gourmet Bakery 在你下订单时只剩下巧克力蛋糕。你不会得到任何甜点,因为 NOT 完全消除了子集,当其中一个术语满足子集时,它就会抛出每个包含巧克力蛋糕的盘子,即使上面的冰淇淋是你最喜欢的香草。

让我们在 Doc's 只有巧克力蛋糕在货架上的同一天,再尝试一次搜索馅饼。

示例:(pie AND ice cream) NOT chocolate

在这种情况下,我们的订单会给我们一些馅饼(只要不是巧克力馅饼,或者馅饼上没有巧克力冰淇淋)。

从这些例子中,你应该意识到 NOT 命令在在线搜索中必须谨慎使用,因为它可能会消除一些你感兴趣的文档,如果这些文档也恰好讨论了你并不感兴趣的主题方面。例如,在最后一个 NOT 例子中,你将不会得到任何既有馅饼又有巧克力蛋糕的盘子。

AND 命令有更具体的变体,可用于定义搜索词的空间关系。这些被称为 **位置** 或 **接近运算符**。在 STN 上,它们是

  • (A) - 术语必须相邻,不考虑顺序
  • (W) - 术语必须按照指定的顺序出现
  • (L) - 术语必须出现在同一个逻辑单元(字段)中
  • (S) - 术语必须出现在同一个字段内的同一个句子中。

请注意,在 STN 上,(A) 和 (W) 运算符在所有文件中都具有相同的含义;其他接近运算符可能会根据文件产生不同的结果。在没有明确的位置或其他布尔运算符的情况下,STN 假定多词短语将使用 (W) 运算符进行搜索。

请参阅 "用于关联搜索词的运算符",了解一些 STN 系统上的布尔搜索运算符示例。

一些示例说明了 **嵌套** 的使用,将术语放在括号中,以便搜索系统知道先执行这些函数,然后再继续执行其他运算符。

[edit | edit source]

在许多涉及主题搜索的情况下,我们正在寻找涉及以共同词根构建的词语的主题,或者这些词语有一些其他变体,可以通过特殊符号轻松地向计算机发出信号。**截断** 是一种技术,它告诉计算机形成一个答案集,该答案集包含所有包含用于搜索的字符的词语的记录,但也可能包含在词语的给定点处带有后缀(或在某些情况下带有前缀)或可变字符的相关词语。**在 SciFinder 研究主题搜索中无法使用截断技术。** 但是,它可以应用于命令驱动的搜索,例如在 STN 上进行的搜索。例如,请参阅

截断可以发生在词干的左侧或右侧,也可以发生在词语内部。STN 现在允许在 CA 文件基本索引中进行所有三种类型的截断,该索引是来自标题词、摘要中的词语或索引词(包括所讨论化合物注册号的主题词的索引)。通过截断收集到的一组词语的限制为 30,000 个词干。对于左侧截断,搜索词必须至少包含四个字符。

在 STN 系统上,截断符号是

符号 功能 示例
感叹号 (!) 正好一个字符 cataly!e
井号 (#) 一个或零个字符 alcohol#
问号 (?) 任意数量的字符 ?therap?

如表所示,# 符号可以在单词末尾使用,以提取单词的单数和复数形式。在 STN 上使用命令语言选项来完成相同操作的另一种方法是在系统提示符处输入 SET PLURALS ON。允许使用“?”进行左右截断。

使用截断收集到一组词语的数量有限制。因此,在使用截断时必须谨慎,以防止过多的搜索词(或意外的词语)进入答案集。

新手搜索者甚至专业人士有时会在截断方面犯下严重错误,尤其是在允许左右截断的系统中。考虑一下如果使用这些字符字符串在两侧进行截断,搜索会发生什么

?HEMI?
?ION?

在第一次搜索中,将提取“chemical”或“chemistry”或“biochemical”等单词的每次出现,但也将提取包含“hemisphere”等单词的文档。在第二种情况下,将提取每个包含以 -ION 结尾的英语单词的文档。可能不是搜索者想要的!

不幸的是,不同供应商或搜索引擎之间用于指定截断的符号并不统一,尽管通常我们发现星号 (*) 用于表示右侧截断点。例如,Web of Science 就是这种情况。

在 SciFinder 中,不使用截断。搜索者只需在研究主题搜索窗口中输入定义搜索的自然语言表达式,甚至不需要尝试插入布尔搜索词。SciFinder 搜索算法具有一些内置的智能,可以查找与搜索相关的词语形式。例如,搜索系统会自动搜索单数和复数主题词。

让我们考虑几年前在 SciFinder 上针对分析技术“化学分析电子能谱 (ESCA)”运行的研究主题搜索的结果,包括来自 CAplus 和 Medline 数据库的结果。

在运行搜索时,输入的搜索找到了 4395 篇参考文献,其中“电子能谱”和“化学分析”这两个概念紧密关联,而只有 582 篇参考文献包含输入的短语。在这种情况下,让我们重复使用分析技术缩写 (ESCA) 进行搜索,并使用同义缩写 XPS。(该技术也称为 X 射线光电子能谱。)我们可以选择在术语或短语后用括号输入同义词。因此,在 SciFinder 上输入研究主题搜索为

XPS (ESCA)

会暗示系统你在寻找同义词(OR 搜索)。此搜索找到了更多文档:在 2004 年 10 月 3 日搜索时,共找到 114,511 篇。但是,ESCA 部分搜索提取的 35,609 条记录中,许多是误报,与“escape”一词匹配!单独输入 ESCA 会提取 7516 条包含“as entered”的记录,并且似乎除了最古老的(1918 年的记录)之外,所有记录都是相关的。因此,在 SciFinder 上,必须谨慎使用在括号中输入同义词的方法。

引号

[edit | edit source]

将短语放在引号中会大大缩小搜索范围,因为结果将限制在包含精确短语的那些结果,并且按输入顺序排列。一个基本示例是搜索 **polymer nanorods** 与 **"polymer nanorods"**
**polymer nanorods**:大多数搜索引擎将对 **polymer** 和 **nanorods** 术语执行 **AND** 搜索,并返回包含这两个术语的结果,无论它们出现在结果中的任何位置,这将导致无关结果。
**"polymer nanorods"**:将术语放在引号中将确保返回的结果包含 **polymer nanorods** 作为相邻术语。

电子信息来源类型

[edit | edit source]
Clipboard

待办事项
本节目前正在修订。


书目与非书目

[edit | edit source]

在搜索同行评审的科学信息时,可以区分两种类型的数据库

非书目

这包括属性数据库、化学结构数据库、词典和百科全书等来源,这些来源提供实际问题的答案,而不必查阅其他来源。
示例:大英百科全书、CRC 化学和物理手册、SciFinder、ChemSpider

书目

这些数据库包括已发表作品的记录,可能包括摘要,并且越来越多地包含到主要文档全文的链接。
示例:Web of Science、SciFinder、Compendex、PubMed


通常,商业产品无法通过公共互联网连接找到或访问 - 访问权限仅限于已付费访问的组织,这通常通过计算机 IP 认证来执行。示例包括 CRC 手册和知识网络。一些资源是公开可用的,例如 ChemSpider 和 PubMed。网络搜索引擎无法访问图书馆在线公共访问目录 (OPAC),这些目录会告诉你具体的图书馆馆藏,也无法访问任何商业供应商提供的产品。但是,公开可访问的数据库通常会在搜索引擎结果中显示。因此,它们可以成为非常强大的工具,对于某些类型的问题,它们在信息搜索中非常有用。如今,包括化学家在内的许多人都会维护自己的个人网页。为了定位某人,并可能找到化学家的完整或精选的参考书目或简历 (CV),网络可能是获得可靠、最新信息的最佳途径。同样,非常新的或热门的话题可能会在网络新闻组、讨论列表或博客中讨论,远在它们出现在传统期刊,以及随后出现在摘要和索引服务之前。出于所有这些原因,我们开始看到商业供应商添加选项,将商业数据库搜索中使用的搜索策略转移到互联网上以获取更多信息。

尽管访问网络很容易,但如果您在组织中可以轻松访问在线商业数据库,那么从网络搜索引擎开始进行主题信息搜索应该是一种比较罕见的情况。像 Web of Science(包括可能追溯到 1900 年的科学引文索引)、爱思唯尔 Reaxys 数据库(其中包括涵盖现代无机、有机和有机金属化学文献的 Gmelin 和 Beilstein 数据库,追溯到 18 和 19 世纪的开端)和化学文摘 (全面涵盖化学的所有领域,追溯到 1907 年,在某些情况下甚至更早) 这样的数据库,如果对您可用,通常是更好的首选。

数据库搜索选项包括

  • 对位于组织外部的商业数据库进行在线搜索。
    在线搜索服务提供商(例如,STN 国际)从数据库生产商(如化学文摘服务或汤森路透)租赁或购买数据库,并在远程计算机上提供。对于某个特定的供应商,其计算机上可能拥有数十或数百个数据库,这些数据库都通过通用命令语言或图形用户界面进行搜索。在绝大多数情况下,搜索数据库都需要付费。
  • 网络搜索引擎。
    如上所述,当今强大的搜索引擎可以为传统的在线搜索提供有用的补充。
  • 网络上的免费化学数据库.
    一些可以在互联网上免费搜索的数据库质量非常高,例如由美国国立医学图书馆或其他政府机构或商业组织制作的数据库。但是,大多数可以在互联网上免费访问的数据库的质量可能不及商业数据库。此外,在免费互联网数据库中,用户遇到的搜索界面有很多差异。尽管如此,对于某些类型的搜索,它们不应该被忽视。
  • 对组织内数据库进行内部搜索。
    化学和制药公司现在通常在其自己的计算机上加载数据库。


摘要和补充信息

[edit | edit source]

商业数据库相对于免费的网络搜索引擎有很多优势,包括对资料的更深入索引和更复杂的搜索技术。尽管此处讨论的许多搜索技术(如使用布尔运算符和截断)可以应用于免费搜索引擎,但商业数据库的深入索引(包括文档类型等字段)使这些技术更加强大。始终建议在可用时咨询专门的数据库,而不是仅仅依靠搜索引擎结果。

CIIM 链接,供进一步学习(主要工具或数据库)

SIRCh 链接,用于计算机搜索

关于此主题的习题

化学文摘数据库与印刷版《化学文摘》

[edit | edit source]

德克萨斯大学化学馆员大卫·弗拉克斯巴特指出了在图书馆馆藏中保留印刷版《化学文摘》卷册的一些原因 (CHMINF-L,2010 年 6 月 8 日)。他指出:SciFinder 与《化学文摘》并不完全相同。后者中的所有(或几乎所有)内容都包含在 CAPLUS 文件中,并通过注册文件进行稳健的物质索引。但说你可以在 SciFinder 中完成在印刷版中可以完成的所有操作是过于简化了。

例如

  • 集体主题/物质/化学式索引允许以 SciFinder 中无法实现的方式浏览化学名称、化学式和主题词。SciFinder 非常适合快照,但它没有提供任何关于 CA 数据库的层次结构、其索引和命名法的视图;它也不允许浏览母体结构的衍生物、盐和其他变体。换句话说,你无法像在印刷版中那样在线浏览附近的条目,这消除了偶然性因素。对于某些目的,这是一个重要的区别。(在 STN 中可以浏览索引条目。)
  • 当你无法弄清楚 CAS 如何定义某些类型化合物的结构或化学式时,特别是无机化合物(盐、水合物、离子、小数等)、配位化合物和多组分物质,SciFinder 会让人沮丧。使用索引指南和化学物质索引实际上可以节省一些时间,当你找到注册号时,你可以回到 SciFinder,找到物质记录并完成文献检索。(当然,此方法仅适用于在你上次集体索引之前注册的化合物。)
  • SciFinder 中无法搜索或显示 1967 年之前的 CA 文摘号,只能在印刷版或 STN 上查找或验证。这些编号偶尔会在较旧的文献中被引用,尤其是作为模糊和外国文献的替代品。
  • 一些印刷版文摘可能包含在线未重复的结构图形。
  • 一些较旧的 CA 记录未被正确转换,在 SciFinder 中丢失或与相邻记录合并。CAS 会在收到通知时修复这些错误,这似乎是一种罕见的现象。
  • 根据许可限制,SciFinder 无法供非关联用户使用。《CA》印刷版是一个潜在的备用方案。(除非它被存放在库房中。远程存储的索引几乎肯定永远不会再被使用,也无法用于其预期目的,因此这与丢弃它们本质上没有区别。)当然,《CA》印刷版仅用于历史检索。即使你丢失了对 SciFinder 的访问权限,印刷版《CA》也无法填补空白,也无法成为现代用户的可接受替代方案。
  • 即使你决定丢弃大部分《CA》,也应该考虑保留最有价值的部分,如索引指南(非常有用,可以查找索引词、同义词、受控词汇、注册号等);专利索引;化学式和名称索引;以及环系手册。此外,一般的经验表明,较旧的(和较小的)1967 年之前的 CA 部分在档案方面比 1967 年后的卷册更有价值,后者在一定程度上更易于处理。

另请参阅化学文摘服务:从《CA》印刷版过渡到 CAS 的电子产品,以获取更多信息。

华夏公益教科书