化学信息来源/主题搜索
几乎所有文摘和索引服务,更不用说许多其他二级和一级著作,都有主题索引。在本章中,我们将仔细研究一些已经涵盖的主要著作的主题索引,并注意到专门针对特定文档类型和包含一级和其他文献类型的全文数据库的专业文摘和索引服务的存在。使用特定化学化合物的名称进行的主题搜索类型将在以后的主题中讨论,尽管这里讨论了代表化合物类别的词语。
这里讨论的搜索是主题或主题搜索,而不是结构、标识符编号、作者姓名或其他搜索类型。主题搜索很少,如果有的话,也是完全直接的。我们必须找到合适的词语和短语,才能从给定信息源中获取所需信息。搜索者需要考虑变体拼写、首字母缩略词和缩略语的使用、同义词、替代表达以及其他复杂因素。此外,搜索系统解释搜索词的方式至关重要。例如,搜索系统是否将两个相邻的词语解释为必须按该确切顺序出现的短语,或者它是否允许它们按任何顺序出现,也许由其他词语隔开?它是否假设任何搜索词语的存在都足以构成有效命中,还是它要求所有搜索词语都存在?
主题搜索中一个基本且长期存在的概念是关键词(不受控词汇)搜索和主题(受控词汇)搜索之间的区别。随着在线全文材料的出现,全文搜索选项提供了更多机会,也带来了更多复杂性。每种方法都有其优缺点,本章的目的是突出这些优缺点,并讨论一些主要资源的主题搜索功能。
理想情况下,使用从受控词汇或词典或其他主题词权威列表中选择的搜索词进行的搜索,解决了必须考虑并在搜索中包含搜索概念的所有可能的替代表达、所有变体拼写、首字母缩略词和其他上述复杂因素的挑战。受控词汇词语可以
- 连接特定概念的替代或可互换词语,使搜索者不必记住要包含可能的替代词、首字母缩略词等。(X射线光电子能谱用于XPS;基质辅助激光解吸电离用于MALDI-MS)
- 为抽象概念、一组相关概念(光解;热传递)或一类化合物(类固醇;抗肿瘤剂)提供一个统一的术语
- 表明主题词所表达的概念是材料的主要重点,而不是次要主题(尤其是有用的指标是主要强调,例如主要MeSH标题)
受控词汇的一个例子是许多学术图书馆使用的国会图书馆主题词表(LCSH)。另一个例子是与美国国家医学图书馆的MEDLINE数据库一起使用的MeSH(医学主题词表)。化学文摘社 (CAS) 使用索引指南和主题索引以及化学物质和作者索引来控制化学文摘中的搜索词语,化学文摘现在不再以印刷形式出版。1
不受控(关键词)搜索和使用受控词汇搜索之间的区别很重要,也是本课的主要内容,但在SciFinder等工具中,这种区别变得有些模糊,SciFinder是化学文摘的网络版。虽然SciFinder建立在广泛的CA索引词库的基础上,但它并未直接公开CA索引,而只是通过对一组搜索结果进行分析操作来间接引导搜索者找到相关的索引词。此外,SciFinder搜索算法具有一些内置的智能,可以自动搜索单数和复数主题词,考虑拼写变体和常见的首字母缩略词和缩略语。搜索者只需在研究主题搜索框中输入定义搜索的自然语言表达,而无需尝试插入布尔搜索词语。
1STN系统上的CA词汇表显示了CAS词汇控制系统的底层结构,包括其更广泛和更窄的术语层次结构、链接的术语、以前使用的术语和相关术语。
相比之下,关键词搜索要求搜索者在创建主题搜索时考虑并明确包含替代表达、首字母缩略词、拼写变体等,而不参考权威主题列表。关键词搜索不应与全文搜索混淆,关键词搜索也不一定搜索文献条目记录的每个词语。
全文搜索可以在全文文章或内容库中运行,例如出版商网站(例如,美国化学学会的在线期刊网站)或JSTOR上的内容库,允许搜索者检索包含搜索词语的文章,而搜索词语可以在文章的实际文本中的任何位置。当然,这可能会导致大量仅与主题略有相关的搜索结果,因此在这些数据库中成功进行搜索体验取决于复杂的关联性排名算法,该算法根据搜索词语出现的频率、搜索词语出现的位置(例如,在标题或摘要中)和其他因素对结果进行加权。全文库通常还允许搜索者将搜索范围限制在条目的标题或摘要中,更接近于在Web of Science等文献数据库中的基本关键词搜索。
与全文内容库不同,Web of Science等文献数据库由代表和描述文章或其他信息内容(专利、书籍章节、技术报告)的记录组成。这些记录可以是结构化的,也可以是高度结构化的,并且可以包含索引人员分配的受控词汇词语,或其他数据元素(如引用计数或作者机构隶属关系)。在文献数据库中的关键词搜索包括搜索计算机生成的“关键词索引”,该索引包含记录中的重要词语,通常是标题或摘要中的词语,或者作者提供的关键词。在“关键词”概念的一种变体中,科学引文索引(Web of Science的一个子文件)多年来一直包含一项名为“KeyWords Plus”的功能。KeyWords Plus是那些在文章的参考文献标题中出现频率很高的词语或短语,即使它们可能不会出现在文章的标题或摘要中,因此可以增强检索能力。
国会图书馆主题词表 (LCSH)通常用于大学和研究图书馆的图书馆目录中,LC将化学的广泛领域划分为子领域。主题词是分层的,因此对诸如杂环化合物之类的广泛术语进行主题搜索将为搜索者建议更窄、更具体的术语(例如,呋喃;吡啶)。但是,使用这些更窄的术语索引的项目不会自动包含在更广泛的搜索中。LC主题词可以用限定词或短语(例如,分析;合成)进一步修改,或者用描述材料类型或格式的术语修改(例如,期刊;百科全书;手册等);因此,为了找到合适的著作,可以搜索以下短语:
无机化学百科全书
或
有机化学手册
了解国会图书馆主题词表的总体模式和层次安排,以及如何在图书馆的在线目录中搜索这些词语,可以使研究更加高效和有价值。
分类方案
当然,找到给定图书馆拥有或租赁的相关书籍、期刊或数据库的一种选择就是简单地在图书馆的书架上浏览适当的区域,使用下表作为使用国会图书馆分类系统的图书馆的路线图。但是,许多图书馆正在将越来越多的采购转移到在线书籍,这些书籍可能被分配了国会图书馆分类,也可能没有,但自然不会出现在实体书架上。应该咨询相应的图书馆工作人员,了解在线书籍如何在目录中显示以及如何最好地搜索它们。
国会图书馆
化学分类表
主题 | LC范围 |
---|---|
化学(一般) | QD 1-65 |
分析化学 | QD 71-142 |
无机化学 | QD 146-197 |
有机化学 | QD 241-441 |
物理化学和理论化学 | QD 450-801 |
晶体学 | QD 901-999 |
有关许多化学主题的LC分类号,请参阅此链接到LC分类号的化学术语列表.
在1972年之前,化学文摘有五年和十年期的主题索引。从1972-76年的第九个合集索引期开始,**单一**化学物质的化学名称索引条目被归入一本新的著作——**化学物质索引**。其他所有内容,包括物质类别(例如,醚)的名称,都被归入**一般主题索引**。因此,对涉及化合物类别、反应、工艺、设备或动植物物种的术语的搜索,应在"一般主题索引"中进行,前提是已在"索引指南"中找到了相应的术语或短语。从2007年起,CAS不再按合集索引期对信息进行分类,因此新的CA索引名称不再带有"CI"标签。为了确保找到在"一般主题索引"中使用的正确术语,重要的是要查看与您搜索的时期相对应的"索引指南",因为这些术语可能会随着时间的推移而发生变化(例如,"Pharmaceuticals"(14CI)与"Drugs"(13CI及之前))。
并非所有首选词或短语都能在"索引指南"中找到,如果您没有在那里找到相应的条目,假设您已经选择了正确的首选词,并在"一般主题索引"的相应部分中查找。始终要注意,当合集索引期的边界发生变化时,首选词可能会发生变化。
查看CA学生版中的示例记录,特别注意索引词和缩略语的使用。如上所述,SciFinder主题搜索会在幕后完成一些工作,以找到要包含在搜索中的适当术语,因此使用该资源的人员在进行研究主题搜索时不必过多地担心受控或不受控词汇表。但是,正如上面所述,您可以谨慎地将同义词放在括号中,与相关概念并列,例如,ESCA(XPS)。
受控词汇索引:化学文摘"索引指南"和补充词
[edit | edit source]关键词搜索的优点之一是,搜索词可以反映科学界不断变化的词汇。只要在一个文档中使用了一个新概念、技术等的名称,它就可以用于搜索。受控词汇列表对科学术语变化的适应速度较慢,但它们的最大好处是,它们可以引导您找到该概念的唯一首选词。因此,搜索者只需要识别首选索引词就可以找到感兴趣的文档。
近年来,一个有趣的例子是"点击化学"一词的出现,该词由化学家K. Barry Sharpless在20世纪90年代末创造。该表达方式首次出现在1999年的SciFinder中,当时它只是一个会议摘要中的单一引用,并在2001年,该概念在发表的期刊文章中得到了完整的描述。2该表达方式迅速发展成为一个补充词(从关键词到正式索引词的过渡状态)。SciFinder然后显示了以下趋势:从2002年作为补充词使用3次,到2006年使用155次,在2007年,"点击化学"首次作为化学文摘采用的正式索引词出现,有69项被索引为"点击化学",约202项显示"点击化学"作为补充词。在2011年(最近的完整年份)中,"点击化学"一词产生了1460个参考文献,其中1097个被索引为该词。
在2010年化学文摘停止印刷出版之前,"索引指南"是管理六个月卷和五年合集一般主题和化学物质索引的出版物。虽然"索引指南"不再是现行的,但它仍然是一份有用的文档,可以浏览以获得索引词的指导。例如,在"索引指南"的"E"部分中查找ESCA会将您引导到实际"一般主题索引"的"P"部分。
ESCA(化学分析电子能谱)
See Photoelectric emission
x-ray
See Photoelectron spectroscopy
x-ray
同样,在"索引指南"的"X"部分中查找XPS也会导致相同的首选短语
XPS(X射线光电子能谱)
See Photoelectric emission
x-ray
See Photoelectron spectroscopy
x-ray
因此,通过使用"索引指南",搜索者会发现,有关该主题的文档可以在化学文摘"一般主题索引"的"P"部分中找到。在使用"一般主题索引"之前,使用CA"索引指南"很重要,因为"一般主题索引"本身没有"参见"引用。此外,每个五年合集索引期都有自己的"索引指南"。有一个关于一般主题词层次结构的指南,以帮助选择术语。
2Kolb, H. C., Finn, M. G., & Sharpless, K. B. (2001). Click Chemistry: Diverse Chemical Function from a Few Good Reactions. Angewandte Chemie International Edition, 40 (11), 2004–2021. doi:10.1002/1521-3773(20010601)40:11<2004::AID-ANIE2004>3.0.CO;2-5
在SciFinder中完善和分析搜索结果集
[edit | edit source]SciFinder与许多其他文献数据库(包括Web of Science)一样,提供了工具,使搜索者可以过滤或完善一组搜索结果。完善操作包括通过研究主题(关键词)、作者或公司名称、出版年份、文档类型、语言或源数据库应用限制选项。"完善"基本上是一个单步操作。
SciFinder中的"分析"步骤是对一组研究结果采取行动的更细致的方法。每个"分析"选项都会生成一个条形图或直方图显示,显示术语及其在答案集中的分布,使搜索者可以进一步探索和发现。(请注意,其中一些选项实际上消除了来自MEDLINE的参考文献,因为它们基于CA特定的数据元素。)在2010年,化学图书馆员Chuck Huber和A. Ben Wagner在CHMINF-L上给出了以下关于使用这些分析工具的有用指南(在下面的"混搭"中略作编辑)。
- CA章节标题起源于最初的印刷版化学文摘,该文摘出现在80个主要主题章节中,收集在五个大标题下(有关更多信息,请参见化学文摘章节)
章节 名称 |
章节 代码 |
章节 数字 |
---|---|---|
生物化学 | BIO/CC | 1-20 |
有机化学 | ORG/CC | 21-34 |
高分子化学 | MAC/CC | 35-46 |
应用化学与化工 | APP/CC | 47-64 |
物理化学、无机化学与分析化学 | PIA/CC | 65-80 |
这些都是非常广泛的类别。请注意,这些章节的定义和确切标题在过去几年中多次更改,这解释了您在进行分析时看到的差异。此分析会自动消除MEDLINE记录(没有警告消息),因为它们当然没有分配CA章节标题。索引词分析了CAPLUS和MEDLINE的受控词汇,即主题词,但不包括化学物质索引。它不搜索补充词。
- CA概念词头分析了旧版印刷版一般主题索引中使用的CA"主词头"受控词汇/索引词,即不包括化学物质索引。这些词头出现在SciFinder记录中的CONCEPT列(标题框,而不是详细的文本修饰信息)中。此分析排除了MEDLINE记录,同样没有警告消息。如果您搜索的集合中只有CA参考文献,则此分析似乎与索引词分析相同。
- 补充词最初包含来自CA关键词短语的单个词,这些词是(或曾经是)用于准备印刷版CA每一期快速索引的索引词。关键词反映了标题和摘要的内容,使用原始文档中找到的词汇。MEDLINE记录不会从此分析中排除。
以下是一些关于如何在SciFinder主题搜索中使用这些提示的提示。
1) CA章节标题 - 假设您不关心答案集中是否包含MEDLINE记录,那么CA章节标题限制将有助于集中于一个非常广泛的类别,例如酶或生物化学遗传学或哺乳动物激素。当您需要一个过于广泛而无法通过关键词定义或消除来自不同类别的噪音的类别时,这很有用。它也可能对包含大量参考文献的集合很有用,在这种情况下,索引词分析会让人不知所措。确保向下滚动足够远的距离,以获取同一章节的较旧变体章节标题。参考文献通常分配到多个章节,因此需要注意,因为期待所有关于酶的参考文献(无论上下文如何)都在酶章节中是不合理的。当您选择CA章节标题时,您是在假设您正在选择那些主要重点是与章节相关的参考文献(类似于MEDLINE中的主要MeSH词头)。因此,CA章节标题在您想要区分两个具有相同名称但领域截然不同的概念时很有用。例如,您搜索"plasma",并且想要将血液中的物质与恒星中的物质区分开。也许您想专注于主要概念,例如,当您寻找特定类型的催化剂的用途时。如果您缩小范围,只包含放置在催化章节中的论文,那么这些论文很可能将催化作用作为主要主题而不是次要主题来处理。
2) 索引词 - 这有保持 MEDLINE 记录的优势。当你在搜索中达到一个你已经输入了你所能想到的所有概念和你觉得安全的限制,但仍然有太多参考信息难以浏览的时候,它会很有用。通过索引词进行分析是完美的解决方案,它向我们展示了当我们不知道自己想要什么时,集合中包含的内容。它会产生一些想法,让我们知道集合的哪些方面是我们想要查看的。索引词是识别关键词和/或更紧密地将搜索重点放在主题上的可靠方法。使用索引词进行分析的一个问题是,有时你想要关注的索引词会埋藏在按排名排序和字母顺序排序的较低级别中。通过使用“分类”,你可以按层次结构向下浏览到你想要的术语集,并且在最终“分类”列中更小的术语子集中,你可以找到你正在寻找的术语。但是,“分类”不能用于非常大的答案集。
3) CA 概念词头 - 我很少使用这个选项,因为它基本上执行索引词分析。我所能想到的唯一用途是,当我有 CAPlus 和 MEDLINE 记录集,并且想要同时消除 MEDLINE 记录,同时查看 CA 索引。
4) 补充词 - 特别是在追求非常新颖、具体或不寻常的主题时,检查补充词将是一个额外的预防措施,以确保索引词分析没有遗漏一些重要的记录。这是一种在 MEDLINE 中进行标题词搜索的方法,否则只能通过“浏览参考:期刊搜索”屏幕进行。最好先进行索引词分析,然后使用补充词作为二次检查。你可能很少单独进行 ST 分析。补充词的另一个用途是在 SciFinder “过度截断”时。例如,“醇解”被截断为“醇”,这会导致大量误报。但是,如果你通过补充词进行分析,你可以挑出那些在该字段中出现未截断的所需术语的论文。
专门的摘要和索引服务,用于主题或文档类型
[edit | edit source]有许多专门的摘要或索引服务,涵盖化学的子集,例如 分析摘要,或者特定的格式,例如 Proquest 的论文和论文数据库,或者 Derwent 世界专利索引。本章讨论的许多主题搜索技术都适用于这些作品,但熟悉你选择搜索的任何工具的指南、数据库摘要表和其他用户帮助是一个非常好的主意。
总结
[edit | edit source]根据所讨论的数据库,搜索者可能只是输入自然语言的主题,或者可能需要查阅权威的主题词列表才能进行主题搜索。更高级的数据库(在数据结构、受控词汇和搜索引擎优化方面)会为搜索者提供更准确、更全面和更相关的搜索结果。最低限度开发的数据库要求搜索者勤奋和有创造性地思考替代表达方式、同义词、首字母缩略词和搜索的其他方面,以找到最相关的信息。在精确度(检索到的文章的相关性)和召回率(数据库中实际检索到的相关项目数量)之间总是存在权衡。定义非常狭窄的搜索策略可能实现近 100% 的精确度,但会找到数据库中相对较小的重要相关参考百分比。数据库制作方和供应商开发了许多技术,允许搜索者改进搜索策略并将所需信息带到表面,关注这些技术将在长远内带来回报。