开放元数据手册/介绍
元数据的定义有很多
- 根据美国国家信息标准组织(NISO),元数据是“描述、解释、定位或以其他方式更易于检索、使用或管理信息资源的结构化信息。”
- 根据万维网联盟(W3C),元数据是“网络上的机器可理解信息。”
元数据通常被理解为“关于数据的數據”——用于描述数据或信息,提供更多上下文信息的数据。在图书馆和信息科学中,元数据通常用于收集有关作品(书籍、文章、照片等)及其独特和上下文特征的信息,例如图书馆目录包含有关出版物(数据)的信息(元数据)。
元数据除了描述特定数据或信息以提高其价值和可用性外,没有其他功能。有时很难确定某件事应该被视为数据还是元数据。实际上,同一信息有时可能根据其使用上下文和用户需求被视为数据或元数据。
元数据语句通常根据定义的元数据模式、元数据标准和元数据模型进行结构化。受控词汇表、分类法、词典、数据字典和元数据注册表等工具可用于对元数据应用进一步标准化。不同的模式和词汇表已用于描述不同类型的资源。这些通常带有关于必须以何种方式制定或编码元数据的不同规则集。虽然某些元数据模式与语法无关(即,它们没有关于如何记录数据的规定规则),但其他模式则需要特定的语法(即,元数据必须以特定格式记录)。元数据模式的语义取决于所使用的词汇表,这些词汇表决定了不同元数据元素所假定的含义。
元数据的目的是将信息附加到数据,以便随后可以发现和使用它。
存储在图书馆目录、档案或博物馆中的数据可以参考各种类型的工作:书籍、期刊、文章或手稿等文学作品;绘画、素描、照片或地图等艺术作品;以各种媒体记录的音乐作品;以及任何类型的视听作品和多媒体作品。这些作品通常没有关于其固有属性和法律属性的精确信息。可以提供更多信息,以便使数据对用户更有用和更有价值。这可能包括有关作品类型、创作和首次出版日期的数据;有关作者和作品内容的信息;但也与归属于整个作品或其每个组成部分的权利有关的信息。这就是构成元数据的內容。
当以机器可读格式发布时,元数据可以实现自动数据发现,以及对其的正确使用和归属。
元数据对以下方面非常有用
- 查找符合特定条件的信息。
- 更好地理解所找到信息的详细信息和特征。
- 帮助其他人以后查找和使用该信息。
生成元数据可能是一项非常具有挑战性的任务——通常由各种参与者协作完成。记录材料的详细描述通常受对每个项目的已知信息量的限制,这可能需要大量的研究才能完成。结构和管理元数据要么是自动生成的,要么是由负责数字化或所描述资源收集的机构提供的。描述性元数据通常由负责资源生产或出版的机构提供。但是,它有时由负责检索必要信息以生成正确描述性元数据的研究人员和信息专业人员生成。
虽然生成元数据可能很昂贵且耗时,但它会为书目记录增加价值。元数据标准的选择取决于实施成本和数据的预期使用。
- 详细、灵活和可扩展的实施
- RDF/Sparql 为开放书目数据的描述/识别/管理提供了高级工具。然而,没有大量的投入和成本,是无法构建一个适当的 RDF 数据库的。虽然需要对数字资源进行更精确的描述,以便可以搜索和识别它们,但对于许多大型数字化项目来说,这并不现实。
- 简单、快速和低成本实施
- 为开放书目数据的快速传播而设计的轻量级临时元数据格式。
已经开发了各种工具来支持和促进创建和编辑元数据的任务,这些工具既有免费工具,也有商业软件。例如,这些工具包括
- 模板允许用户在特定元素集的预定义字段中输入值。然后,模板系统将自动生成一组格式正确的元素属性和值。
- 标记工具允许用户将元数据属性和值结构化为特定的元数据模式,例如 XML 或 SGML 文档类型定义。
- 提取工具允许用户从数字资源(通常是文学性质的资源)自动生成元数据记录。这些工具越复杂,生成的元数据质量就越高,尽管生成的元数据始终应手动审查以确保准确性。
- 转换工具允许用户将元数据记录从一种格式转换为另一种格式。同样,虽然这些工具通常会产生准确的结果,但生成的元数据始终应手动审查。
开放元数据注册表是一个允许您在简单的用户界面中创建 RDF 数据集和词汇表的网站。它是 RDA 元素在 RDF 中的家园,以及一些 IFLA 集,例如 FRBR 和 ISBD。
您可以在 开放元数据注册表沙盒 中尝试创建词汇表和元数据元素。您需要设置一个登录 ID 和密码。之后,您将在右上角“词汇表”和“元素”旁边看到“(添加)”链接。随意查看其他人所做的事情,并创建您自己的元数据。填写元素或术语的信息并保存后,您就可以通过单击右下角的链接查看 RDF 中的结果。
许多图书馆使用元数据来编目资源,例如书籍、期刊、DVD、网页或数字图像。元数据存储在集成图书馆管理系统 (ILMS) 中,使用特定的元数据标准。其目的是引导人们找到他们寻找的物品或区域的物理位置或电子位置,并提供所述物品的描述。
在书目环境中,元数据可用于以下目的
元数据可用于识别书目资源(项目或项目集合)。在互联网上,这通常通过使用唯一标识符来实现 - 例如 ISBN/ISSN、DOI(数字对象标识符)、PURL(持久 URL)或标准 URL(统一资源定位符)。元数据还可以用于检索有关书目资源的信息(给定其标识符),反之亦然,用于根据一组特定的识别标准检索资源的标识符。
鉴于如今大量的信息可用,根据特定标准促进特定资源的发现变得越来越必要。元数据在这种情况下非常有用,因为它
- 允许更好地识别资源。
- 允许根据特定关键字或标准搜索资源。
- 促进识别不同资源之间的异同。这便于收集/聚合共享相似标准的资源。
- 增强自动搜索的质量,因为搜索引擎可以更好地理解不同资源的上下文、细节和内容。
根据特定标准聚合不同的资源对于组织和分类特别有用。得益于元数据,可以根据受众或检索这些资源的目的,动态创建不同的资源集合。在这种情况下,元数据对以下方面很有用
- 描述单个资源:文档、页面、图像、音频文件等。
- 描述集合的内容:网站、数据库、目录等。
- 描述资源之间的关系:目录、章节、图像 - 网站地图
随着数字技术的出现,保存问题正变得越来越令人担忧。数字资源比物理资源更容易损坏,因为它们很容易丢失或损坏(无论是有意还是无意)。数字媒体也可能损坏,或者其技术(软件或硬件)可能过时,因此无法再使用。元数据可以通过确保始终可以访问一份副本,来确保资源在未来仍然可用。元数据还可以跟踪数字资源的历史记录:其来源、经历的变化等。已经开发了多种元数据模式来促进书目资源的数字保存。例如,请参见澳大利亚国家图书馆、英国 Cedar 项目(CURL)、OCLC 工作组和研究图书馆组的举措。特别注意 OCLC 和研究图书馆组认可的 PREMIS 倡议(保存元数据:实施策略)。大多数这些举措都与 OAIS 标准(开放档案信息系统 ISO 参考模型)兼容。
- 使用适当的元数据格式描述资源,使人和机器都能理解描述。
- 定义的元数据模式允许在不同系统之间交换信息,而只损失最少的信息 - 通过共享传输协议或不同模式之间的交叉转换。
- 使用标准元数据模式使用户能够通过使用类似或可互操作格式的多个数据库搜索特定资源。
图书馆元数据的更新和更专门的实例包括建立数字图书馆,包括电子出版物库和数字图像库。由于包含的材料的定制性质,元数据字段通常是专门创建的,例如分类学分类字段、位置字段、关键字或版权声明。标准文件信息(如文件大小和格式)通常会自动包含。
几十年来,图书馆运营的标准化一直是国际标准化 (ISO) 的一个关键议题。数字图书馆中元数据的标准包括 Dublin Core、METS、MODS、DDI、ISO 标准数字对象标识符 (DOI)、ISO 标准统一资源名称 (URN)、PREMIS 模式、生态元数据语言和 OAI-PMH。