跳转至内容

开放元数据手册/技术概述

来自维基教科书,开放世界中的开放书籍

元数据的解剖

[编辑 | 编辑源代码]

要理解一段元数据,您需要了解它使用的特殊“语言”(结构)。这种“语言”就像军队用来对消息进行混淆的秘密代码,但对于元数据,我们对其进行“混淆”,以便计算机可以理解它,而用来破译它的“代码本”称为“元数据标准”(它使用称为模式、数据模型、元素等内容编写)。

元数据标准的目的是使更容易找到用类似术语和结构描述的类似项目 - 当描述是自由形式或自由文本时,这更难。

为此,元数据标准旨在指定三个层级

  1. 词汇表(信息是什么):一组特定的元数据元素(字段),可用于描述对象
  2. 格式(上述信息如何排列):数据模型(结构)
  3. 语法(上述格式如何表达,即写下来):特定的序列化和数据格式。

因此,每个元数据记录都包含描述对象的各种元数据元素,这些元素被组织成特定的数据格式,并根据特定的序列化(通常是 XML 或其他机器可读格式)表达。

元数据元素定义用于表达元数据模式内容的词汇表(字段名称)。

元数据数据模型描述元数据模式的语法,独立于正在使用的词汇表。它确定数据的结构,即创建的用于构建元数据字段或元素的规则(而不是其内容)。

序列化将元素和数据模型放入实际的位和字节数据中。每个元数据格式都必须表达成特定的标记语言或序列化(JSON、XML 或其他)。但是,并非每个元数据模型都必须依赖于一种特定的序列化。同一个元数据模型可以在多种不同的标记或编程语言中表达,每种语言都需要不同的语法。

保持格式尽可能简单,降低了符合标准的门槛。临时元数据格式更容易处理,文档易于解析,没有层次依赖关系,它们对于数据库插入和提取非常方便(例如 Google 的 bigtable、couchdb、非关系型数据库、NoSQL 等)。但是,大多数这些标准本质上是相互不兼容的,除非提供适当的文档,否则无法对其进行处理。标记语言的含义在解析器的逻辑中实现:每个解析器都定义了自己的规范,其中包含一系列可以被认为有效的特定标记(例如 Facebook、Twitter、Google 的 API)。

有关了解元数据的良好参考资料,请访问以下地址:http://www.niso.org/publications/press/UnderstandingMetadata.pdf

为什么它们不同

[编辑 | 编辑源代码]

在元数据的背景下,一刀切并不适用。不同的社区对元数据的需求不同,并将元数据用于各种各样的应用。即使在具有共同元数据需求的社区中,不同的元数据格式也用于表示不同的内容。

特定于图书馆的标准缺乏标准化。许多图书馆标准,例如 MARC 或 Z39.50,是在特定于图书馆的背景下开发的或正在开发中。图书馆的标准化通常由仅致力于该领域的机构进行,例如国际图联或 RDA 开发委员会。

常见的元数据元素

[编辑 | 编辑源代码]

元数据元素可以细分为三个基本类别

  1. 描述性元数据元素(内部):提供有关对象的内容和背景的信息
  2. 技术或结构化元数据元素(容器):提供有关对象的格式、过程和关系的信息
  3. 管理元数据元素(外部):提供管理或使用对象所需的信息

对象通常也有一个唯一的标识符元数据元素。

示例

大多数标准都可以扩展,加入更适合专业社区需求的其他元数据元素。例如,都柏林核心元数据倡议提供了一个用于设计都柏林核心应用程序配置文件 (DCAP) 的框架。不同的社区可以定义更适合其需求的专业元数据记录,同时在全球定义的词汇表和模型的基础上保持语义互操作性。

在本节中,我们将概述用于发现、识别和描述不同类型作品(如书籍、文章、唱片、照片、电影、艺术品等)的关键元数据元素。

有关更详细的概述,请参阅,例如http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/#Metadata_Element_Sets

文学作品

[编辑 | 编辑源代码]

描述性元数据

  • 创作者(考虑到某些书籍可能是匿名的)
  • 标题
  • 编辑
  • 出版者
  • 出版日期
  • 出版地点
  • 标识符(例如 ISBN、ISSN、DOI 等)
  • 链接(例如,如果在线,则为 URL)
  • 类型(例如,参考书、百科全书、小说等)
  • 主题(标签)
  • 描述(摘要)

技术/结构化元数据

  • 语言
  • 页数
  • 卷(如果适用)
  • 起始页/结束页(例如,用于书籍章节或文章)
  • 格式(例如,精装本、平装本、数字格式、pdf、html 等)

管理元数据

  • 创建时间
  • 首次出版日期
  • 创作者的出生/死亡日期
  • 版权状态
  • 上次访问/上次更新日期(对于在线作品)


描述性元数据

  • 创作者
  • 标题
  • 主题(标签)
  • 描述(摘要)。

技术/结构化元数据

  • 相机
  • 光圈
  • 曝光
  • 文件格式
  • 集(如果在一个系列中)

管理元数据

  • 创建时间
  • 版权许可
  • 来源(历史)

常见的元数据格式

[编辑 | 编辑源代码]

本节旨在概述文献领域中常用的元数据格式。我们只关注几个例子,详细描述最常用的格式,而不是提供所有可用格式的综合列表。对于每种元数据格式,我们将重点介绍其引入的历史背景、其旨在达成的目标、其相应的优缺点,以及在可能的情况下,来自参与该元数据格式开发或使用过程中的关键个人的个人备注或引言。

非结构化数据

[编辑 | 编辑源代码]

非结构化数据是指没有预定义的数据模型,或其数据模型不适合关系型数据库。非结构化信息通常以文本形式呈现,其中包含相关数据,例如日期、数字或其他事实。与存储在数据库中的记录或语义标注到文档中的数据相反,非结构化数据会产生一系列歧义和不规则性,这使得机器难以处理或理解。如果选择的数据结构没有被适当地记录,或者不适合所需的处理任务,那么带有某种结构的数据可能仍然被视为非结构化数据。

非结构化数据可以通过多种方法转换为结构化数据。对文本进行结构化的常用技术通常包括使用元数据进行手动标记、数据挖掘或文本分析技术。例如,尽管大多数维基百科内容是非结构化数据,但通过处理这些信息,可以提取含义并创建关于信息的结构化数据。DBpedia 是一项从维基百科中发布结构化数据的努力:这些数据以 RDF 格式发布,并在网络上根据 GNU 自由文档许可协议提供使用,从而允许语义网络代理对维基百科派生的数据集进行推理和高级查询,并促进在其他数据源中的互联、重用和扩展。

结构化数据

[编辑 | 编辑源代码]

MARC 是一种国际描述性元数据格式。MARC 标准定义了以下组件

  • 标记:元数据元素集
  • 语义:元素的含义(尽管其内容由其他标准定义)
  • 结构:通信语法

存在许多不同的 MARC 版本:国家机构(法国、美国、英国等)最初开发了自己的国家 MARC,这些 MARC 后来统一成为一个国际化的 UNIMARC。然而,近年来,由于美国 MARC 被纳入美国目录,并且这些目录的数据也被输出到美国以外,因此美国 MARC 已经取代了 UNIMARC。在实践中,今天,不同国家的图书馆目录可能使用不同的 MARC 版本。

MARC 字段与国际标准书目描述 (ISBD) 相连,ISBD 由国际图书馆界经过几十年的发展而成,其中元素用标点符号标记。尽管 ISBD 可能看起来很复杂,但也允许非常简单的使用,例如:标题 / 作者。- 城市:出版商,年份。

优点

  • XML 序列化
  • MARC 21 以 XML 结构表示。
  • 互操作性
  • 由于其长期以来的普及,已经开发出一套协调一致的工具来提高 MARC 21 与其他元数据格式的互操作性:例如,在其他标准格式(DC、ONIX 等)之间进行转换。
  • 广泛使用基于 MARC 的书目工具和 ILS 实现,以用于标准通信格式,以获得可预测的内容和记录共享:例如,将 MARC 21 标准化以用于 OAI 收获;

缺点

  • 过时
  • MARC 编目标准正在慢慢过时。MARC 非常适合描述书籍,但不适合其他类型的媒体。问题在于 MARC 是为了描述单一出版物(即专著)而设计的。随着互联网的普及,MARC 的使用可能会变得更加困难,因为多媒体格式需要不同的元素和类别。

与 MARC 21 一样,MAB 2 是 ISO-2709 格式家族的一部分。MAB 代表 “Maschinelles Austauschformat für Bibliotheken”(图书馆自动化交换格式),在某些方面与 MARC 非常相似,其结构并非那么静态,即存在指向语义相关概念的链接。总的来说,MAB 更加多样化。

就像 MARC 一样,存在许多不同的 MAB 版本。

优点

  • XML 序列化
  • MAB 2 可以用 XML 结构表达。

缺点

  • 互操作性不强
  • 只有少数图书馆联盟使用 MAB
  • 可用的工具数量不如 MARC 多
  • 过时
  • 与 MARC 一样,MAB 也早已过时,应该用更适合我们当今信息技术的东西取代它。请记住 MARC/MAB 已经有 40 年历史了——在 70 年代,磁带是常见的存储介质。

个人备注 MAB 是一种遗留格式,应该尽快通过 MARC 弃用(德语维基百科说 2012 年)。在我看来,这样做没有多大意义,因为 MARC 本身就已过时,并且将数据转换为 MARC 最终只会导致一些信息的丢失。

BibJSON (http://bibjson.org/) 是一种简单的描述,说明如何在 JSON 中表示书目元数据。它也基于 BibTeX 模型。

JSON 对象是一个无序的键值对列表。BibJSON 对象是作为 JSON 对象的书目记录。

BibJSON 只是 JSON,但对预期含义的特定键有一些约定。正在编写各种解析器,以便将其他格式转换为 BibJSON,从而使人们更容易共享书目记录和集合。参见 http://bibserver.okfn.org/roadmap/open-bibliography-for-stm/http://www.bibkn.org/bibjson/index.html

语义数据和链接数据

[编辑 | 编辑源代码]

W3C 标准资源描述框架 (RDF) 提供了一个定义和使用元数据的概念框架。它可以细分为不同的组件

RDF - 资源描述框架: 这是语义网络的基本标准,描述了所有其他语义网络标准都基于的数据模型。RDF 数据模型对应用程序数据模型的表达施加了结构约束,以确保元数据的编码、交换和处理的一致性。它定义了三元组的概念和基本规则,使这些数据能够在网络空间中发挥作用。RDF 被表述为概念和本体的层级结构,可以无限扩展。资源的描述基于对象和属性,这些对象和属性本身也在 RDF 中被描述。

RDFs - RDF 模式: 虽然 RDF 是一套规则,没有实际编码,但 RDFs 提供了编码,使 RDF 能够通过应用程序“变为现实”。

RDFa - 资源描述和访问 使您能够将语义网络数据包含在 XHTML 页面中,与蒂姆·伯纳斯-李最初的设想一致。(今天许多链接数据不是在网页中找到的,而是从传统的数据库 (DBMS) 中导出,并且存在于网络上,但与特定网页文档无关。)

OWL - 网络本体语言: OWL 是 RDF 的一个子集(就像 RDF/xml 是 XML 的一个子集一样)。它使任何人都能够创建新的词汇表来描述不同的资源。这些词汇表提供了语义链接,需要从 RDF 三元组定义的原始数据中提取信息。已经开发了各种本体,每个本体都有特定的目的。如果现有的本体都不适合特定应用程序,则可以创建一个新的本体。“本体”是对元数据将要处理的知识空间的描述。使用 OWL,您可以定义您的实体和所有元素和关系。您可以包含管理您的数据的规则,以及一些元素之间关系的规则,这些规则将有助于在像网络这样的异构混合数据环境中理解您的数据。

概述

在 RDF 中,所有内容都基于“语义三元组”的概念:主体、属性、客体

  • 主体是通过 URI / URL 识别的资源
  • 属性是另一个通过 URI 识别的资源。它必须在其他地方定义(例如,它们可以从字典、命名空间、模式或本体中提取)
  • 客体可以是 URI 或“值”:字符串、数字等。

主体和客体最终也可以是空白节点 (http://en.wikipedia.org/wiki/Blank_node).

RDF 没有特定的应用领域。它定义了一些基本概念,供其他本体构建在其之上。这些基本元素是

  • 类:资源、类、属性、列表、文字、数字等。
  • 属性:'to be' => 'type'、subClassOf、subPropertyOf、label 等。

所有其他内容都可以由此推导出来。这些组件类似于口语的组件 - 例如,“朱迪拥有斯帕特(一种动物)”是“主体属性客体(类)”,而客体可以在另一个三元组中充当主体,例如“斯帕特是一只狗”(因此我们可以推断出朱迪拥有一只狗)- 这意味着 RDF 功能强大,因为它可以用来描述几乎所有东西!

任何人都可以创建一个 RDF 文档来创建/描述一个尚未存在的类或属性。一旦它被定义,它就可以像任何其他类或属性一样使用。就像面向对象编程一样,人们可以通过扩展其他类来创建新类,RDF 允许通过扩展其他概念来创建新概念。唯一的区别是 RDF 是属性导向的,而不是面向对象的。

例如,FOAF 本体提供了 Foaf:Person 的定义,作为以下描述的 RDF:Class

<rdf:type rdf:resource="http://www.w3.org/2002/07/owl#Class"/>    // the entity is of type OWL Class
rdfs:label="Person"                                               // the name of the entity is "Person"
rdfs:comment="A person."
<rdfs:subClassOf><owl:Class rdf:about="http://xmlns.com/foaf/0.1/Agent"/></rdfs:subClassOf>      // the entity is a subclass of the Class Agent
<owl:disjointWith rdf:resource="http://xmlns.com/foaf/0.1/Org"/>  // the entity has the property of being disjoint with the entity Organisation

例如,参见 http://www.w3.org/People/Berners-Lee/card.rdf,它使用各种词汇表(OWL)来描述伯纳斯-李

优点

  • 可扩展性和适应性
  • RDF 可以用三种不同的方式表达(turtle、n3、xml)。
  • RDF 允许不同的社区定义自己的语义:任何人都可以基于预先存在的本体创建新的本体来描述新的资源。
  • RDF 允许在同一个 RDF 文件中集成无限数量的本体(作为术语/属性/资源字典)。
  • 流行度
  • RDF 得到 W3C 的认可,并用于许多学术项目。在网上很容易找到维护良好且有良好文档的 RDF 本体。
  • 开放式书目数据
  • 许多本体(OWL)可以被开放式书目工作采用,因为它们已在开放许可下提供。
  • 使用 RDF,所有数据都可以使用开放标准和链接数据 (http://en.wikipedia.org/wiki/Linked_Data) 共享。
  • SPARQL
  • SPARQL 是一种功能强大的查询系统,可用于查询已插入 RDF 元数据的任何数据库。
  • 这是为语义网设计的 SQL 等效物。它允许构建链接数据的查询。

缺点

  • 外部依赖
  • 在可以用来描述任何东西之前,RDF 必须依赖一个或多个外部源。
  • 资源密集型
  • RDF 可能需要大型三元组存储(具有数亿个三元组)和 SPARQL 系统,这些系统可能会变得过于沉重。许多机构目前没有足够的设施来很好地处理这个问题。
  • 对于像管理几百万条书目记录这样简单的书目任务来说,负担过重且缺乏可扩展性。
  • 开放式书目数据
  • RDF 作为抽象模型可能很好,但它在开放式书目用途中的实际实施仍有待提供和支持。只有大型企业才能管理处理 RDF 所需的基础设施。
  • SPARQL
  • 使用 SPARQL,如果查询不可完全预测,则可能会导致 NP(即它可能无法在任何确定的时间内返回)

Schema.org

[edit | edit source]

Schema.org 是一个由必应、谷歌和雅虎于 2011 年 6 月 2 日发起的倡议,旨在将语义网的概念引入网站。2011 年 11 月 1 日,Yandex(俄罗斯最大的搜索引擎)加入了该倡议。世界上最大的搜索引擎的运营商建议使用微数据根据其模式将网站内容标记为关于自身的元数据。这些模式可以被搜索引擎蜘蛛和其他解析器识别,从而获得对网站含义的访问权限。该倡议从少数格式开始,但长期目标是支持更广泛的模式。Schema.org 提供了一组模式(即 html 标签),可用于简单的书目数据,目前正被主要的搜索引擎公司(例如谷歌、必应、雅虎)推广。许多网站都是从结构化数据生成的,这些数据通常存储在数据库中。当这些数据被格式化为 HTML 时,恢复原始结构化数据变得非常困难。许多应用程序,尤其是搜索引擎,可以从直接访问这些结构化数据中获益良多。页面内标记使搜索引擎能够理解网页上的信息,并提供更丰富的搜索结果,以便用户更容易在网上找到相关信息。标记还可以启用使用结构的新工具和应用程序。

发布非结构化数据的 OPAC 会生成看起来像这样的 HTML

<div> 
<h1>Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: Paul Bryers (born 1945)</span> 
 <span>Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

以下是将元数据嵌入 Schema.org 格式后的数据外观示例

<div itemscope itemtype="http://schema.org/Movie">
  <h1 itemprop="name">Avatar</h1>
  <div itemprop="director" itemscope itemtype="http://schema.org/Person">
  Director: <span itemprop="name">James Cameron</span> (born <span itemprop="birthDate">August 16, 1954</span>)
  </div>
  <span itemprop="genre">Science fiction</span>
  <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg" itemprop="image">
  <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a>
</div>

通用词汇表

[edit | edit source]

请参见:http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/


都柏林核心 (DC)

[edit | edit source]

都柏林核心是一个词汇表,可以潜在地合并到任何元数据标准中。都柏林核心元数据倡议是一个联盟,发布针对每种元数据类型的不同规范,以便 DC 可以用在任何地方。

都柏林核心可以用两种方式使用

  1. 一组预定义的元数据元素 - 准备在其他元数据标准中重复使用(例如 FOAF)
  2. 具有其自身数据格式和序列化功能的独立元数据模式。

都柏林核心的独立实现通常使用 XML 并基于资源描述框架 (RDF),但都柏林核心也可以在纯 XML (http://dublincore.org/documents/dc-xml-guidelines/)、HTML 或文本中实现。(对于任何 RDF 定义的元数据来说,这都是正确的,它们的属性在 RDF 中定义,RDF 是序列化中立的。)

都柏林核心可用于描述书籍等物理资源、视频、声音、图像或文本文件等数字材料以及网页等复合媒体。基于都柏林核心的元数据记录旨在用于跨域信息资源描述,并已成为图书馆学和计算机科学领域的标准。

简单都柏林核心元数据元素集 (DCMES) 包含 15 个元数据元素:标题、创建者、主题、描述、出版商、贡献者、日期、类型、格式、标识符、来源、语言、关系、覆盖范围、权利。但还有许多其他术语可用。有关更多信息,请参见:http://dublincore.org/documents/dcmi-terms/ http://dublincore.org/2010/10/11/dcterms.rdf

都柏林核心允许实现“应用配置文件”以扩展标准词汇表。应用程序中使用的域模型通常基于更广泛使用的域模型;例如,通用的功能要求书目记录 (FRBR) 模型是图书馆界资源描述的重要参考点。

优点

  • 都柏林核心是一个稳定且定义良好的标准。
  • 它提供了一组语义上可互操作的属性的核心。
  • 它由一系列已明确且准确定义的字段组成。
  • 它是一个可以作为数据库工作规则实施的良好标准,对该数据库有完全控制权。

缺点

  • 如果需要处理可能包含或可能不包含所有必需元素的第三方数据,就会出现问题。
  • 独立实现无法从都柏林核心范围之外的其他元数据中受益:例如,一张照片可能包含以下元数据:拍摄照片的相机类型、设置(光圈值、变焦级别、ISO..)、位置等。即使它是有效的元数据,这种信息也超出了都柏林核心的范围,无法考虑。[但是,请注意,任何自由格式或可扩展的元数据系统(例如键值对)都足以解决该缺陷]

朋友的朋友 (FOAF) RDF 词汇表,使用 W3C RDF 模式和 Web 本体语言进行描述。它被构思为用于描述组和人员,它提供基本属性和资源来表达以下概念:朋友、儿子、居住地、工作地、认识某人、是我的、等等

有关更多信息,请参见:http://xmlns.com/foaf/0.1/index.rdf http://www.foaf-project.org/

BIBO 本体是都柏林核心用于描述书目数据的扩展。书目本体规范提供了描述引文和书目参考(即引用、书籍、文章等)的主要概念和属性。

书目记录功能需求 (FRBR) 标准化了对任何编目人员都必不可少的术语和关系集。FRBR 既是一个通用模型,也是一组属性。有关更多信息,请参见:http://metadataregistry.org/schema/show/id/5.html

资源描述与访问 (RDA) RDA 是 FRBR 模型的实现。它大约有 1400 个属性和 60 多个术语列表。它涵盖文本、声音、电影、制图材料和物体,以及档案材料。 http://metadataregistry.org/rdabrowse.htm/

简单知识组织系统 (SKOS) 是一种专门用于编码术语列表和词典的语言。它提供了一个 RDF 模型来表达概念体系的基本结构和内容,例如词典、分类方案、主题词表、分类法、大众分类法和其他类似类型的受控词汇。


SKOS 可以单独使用,也可以与更正式的语言(如 Web 本体语言 (OWL))结合使用。SKOS 的目标不是替换原始的概念词汇在它们最初使用环境中的作用,而是允许将它们移植到一个共享空间,基于一个简化的模型,从而实现更广泛的重用和更好的互操作性。

SKOS 引入了 skos:Concept 类,它允许实现者断言给定的资源是一个概念。它还具有内置的关系,例如“比...更广泛”和“比...更窄”。在基本的 SKOS 中,概念资源(概念)用 URI 标识,用一种或多种自然语言进行标注,用各种类型的注释进行记录,在非正式的层次结构和关联网络中彼此语义相关,并聚合到概念体系中。它还提供首选和备用显示形式。

更多信息请访问 http://www.w3.org/TR/skos-primer/

通用序列化模式

[编辑 | 编辑源代码]

Turtle RDF 序列化易于理解,人类以原始形式阅读/编辑很容易,而且就 RDF 而言相对紧凑。Turtle 的主要优点如下:

命名空间

一直写完整的 URI 会占用很多空间。Turtle 允许声明命名空间来为它们添加前缀。所有前缀都应该放在 Turtle 文件的开头。前缀: @prefix bibo: <http://purl.org/ontology/bibo/> 使得 bibo:Book 将被解释为 <http://purl.org/ontology/bibo/Book>

类型化资源

RDF 规范定义了属性 rdf:type(注意前缀的使用),它用于为特定资源类型化。Turtle 中 rdf:type 的快捷方式是 a。编写 bibo:Document a bibo:Book 将被解释为 bibo:Document rdf:type bibo:Book

空白节点

空白节点是编写查询时一个很好的快捷方式。它们用方括号 [] 表示。空白节点可用于引用主体:例如,存在一本名为“哈姆雷特”的书 [] a bibo:Book ; dc:title "Hamlet"^^xsd:string . 或 RDF 语句的宾语:例如,这本书是由一个名叫“威廉”的人写的 bibo:Book dc:creator [ a foaf:Agent ; foaf:name "William"^^xsd:string ] .

XML 适用于可以用扁平记录标记的数据。

JSON 是一种基于记录的序列化。JSON 模式本身可以用 JSON 模式来描述。核心 JSON 模式的自描述 JSON 模式可在 https://json-schema.fullstack.org.cn/schema(最新版本)或 https://json-schema.fullstack.org.cn/draft-03/schema(草案-03 版本)找到。超模式自描述可以在 https://json-schema.fullstack.org.cn/hyper-schemahttps://json-schema.fullstack.org.cn/draft-03/hyper-schema 找到。

MARC 是另一种序列化模式,可以承载各种数据类型(作为 ISO 2709)

MAB 用于一些德语国家(德国、奥地利)。基于 ISO 2709,MAB 与 MARC 相似。ISO 2709 主要对应于 1971 年的美国标准 Z39.2。ISO 标准起源于 1973 年,最初打算用于在磁带上交换书目数据。

示例(谁使用什么)

[编辑 | 编辑源代码]

英国/美国的主要图书馆使用 MARC21,许多欧洲图书馆也是如此。在德国,广泛使用的是 MAB2 和 Pica。这些格式用于记录创建、数据交换和内部存储。

越来越多的知名机构正在投入资源到关联数据项目中,从瑞典、匈牙利、德国、法国的国家图书馆、美国国会图书馆和英国图书馆,到联合国粮食及农业组织,以及 OCLC。这些机构可以提供一个稳定的基础,让图书馆关联数据随着时间的推移而建立。请参阅 http://ckan.net/group/lld 以获取图书馆数据集的全面列表。

美国国会图书馆

[编辑 | 编辑源代码]

SKOS、MADS

  • 数字图书馆项目(美国国会图书馆)

AV-Prototype:音频和视频的数字保存使用 METS 和 MODS,重点关注元数据编目报告作为中间级描述


联合国教科文组织的 CDS/ISIS 图书馆软件

[编辑 | 编辑源代码]

通用通信格式 (CCF)

英国国家图书馆

[编辑 | 编辑源代码]

带有英国国家图书馆术语本体的 RDF 请参阅 http://www.bl.uk/bibliographic/pdfs/british_library_data_model_v1-00.pdf http://www.bl.uk/bibliographic/pdfs/britishlibrarytermsv1-00.pdf

知识共享

[编辑 | 编辑源代码]

知识共享成立于 2001 年,当时关于数字版权管理 (DRM) 的辩论非常激烈,语义网 (RDF) 技术也正在发展。知识共享意识到,元数据可以用来使免费作品更有用(例如,通过促进发现和 来源),颠覆 使非免费作品失去有用性的 DRM 范式。Aaron Swartz 领导了知识共享 RDF 模式的开发,该模式仍然是大多数后续知识共享元数据工作的基础。多年来,知识共享也从与微格式社区的互动中受益,最近还领导了 学习资源元数据倡议,这是由开放教育社区长期存在的额外元数据需求以及由于 schema.org 而对网络数据的重新关注所促成的。

知识共享元数据的风险和弊端与元数据的一般风险和弊端没有什么不同:除非元数据生产和发布与其他目标和流程紧密结合,否则它往往会很昂贵而且错误。知识共享试图通过将其 许可证选择器 作为副产品提供元数据,鼓励其他服务和软件也这样做,并且不将元数据作为正确使用知识共享许可证的要求(而是一种最佳实践)来减轻这种风险。

知识共享元数据有两个主要部分:作品描述和许可证描述。作品描述使用来自都柏林核心、SIOC 以及知识共享开发的一些属性来提供有关作品的信息,包括识别作品发布的许可证(或者在适当情况下,公共领域授权或标记)以及遵守许可证所需的信息,例如,归属方的姓名以及与作品的版权信息相关的链接,用于归属目的。知识共享许可证自描述其权限、要求和禁止事项。

CC REL 是一套关于 Creative Commons 元数据实现和使用的建议,重点关注网络注释 (RDFa),以及一种将元数据嵌入文件 (XMP) 中的工具,该工具引用了网络注释。使用 RDFa 允许以细粒度的方式对作品进行注释(例如,网页或链接到或包含的特定对象),与旨在供人类阅读的描述并置,并与更广泛地关注作品或相关作品的注释和描述混合在一起。

有关更多信息,请参阅

欧洲数字图书馆数据模型 (EDM)

[edit | edit source]

http://pro.europeana.eu/edm-documentation

欧洲数字图书馆最初从数百家文化机构收集元数据,使用基于简单 Dublin Core 的扁平通用元数据格式。这种简单的解决方案,类似于传统的记录方法,允许欧洲数字图书馆以最小的努力处理高度异构的元数据输入。但它丢失了欧洲数字图书馆合作伙伴精心制作的细粒度元数据中的一些丰富性。它在提供框架以生成和交换丰富的文化对象与其自然相关的个人、地点和其他对象连接的数据方面也很差。这反过来导致为用户提供的服务(搜索、显示)质量较差。

在 2008 年到 2011 年之间,欧洲数字图书馆研究了一种新的框架,用于收集、连接和丰富元数据,该框架受语义网和链接数据技术的启发:欧洲数字图书馆数据模型 (EDM)。该模型重新使用现有的词汇表,例如 Dublin Core、SKOS、OAI-ORE,并将其适应欧洲数字图书馆的上下文:从技术上讲,它是这些词汇表的“应用程序配置文件”(http://dublincore.org/documents/profile-guidelines/)。它也受到 CIDOC-CRM 的启发。

EDM 使得能够表示复杂的对象,尤其是档案或图书馆领域中的层次结构对象。例如,在书籍方面,可以将各个章节、插图和索引可视化为一个整体。此外,EDM 可以显示对象的多个视图(绘画、书籍),包括关于物理对象和数字化表示的信息,既有区别又有联系。它区分了对象及其关于该对象的信息,这有助于表示对给定文化对象的不同视角,这是与丰富相关的重要的要求。

最后,它允许欧洲数字图书馆以实体(地点、代理人、时间段)的形式表示上下文信息,这些实体在数据中明确表示并与文化对象相关联。这是文化遗产领域的一项关键功能,在该领域,诸如 Thesaurus、Gazetteers 和姓名权威文件之类的知识组织资源被广泛使用,并且可以提供给欧洲数字图书馆和更广泛的链接开放数据空间。

EDM 是与图书馆、博物馆、档案馆和视听收藏领域的专家共同开发的。虽然它在欧洲数字图书馆的实施仍在进行中,但它已经针对特定领域的元数据进行了测试,例如博物馆的 LIDO、档案的 EAD 或数字图书馆的 METS。作为一项高级功能,EDM 旨在允许几种“粒度”的元数据无缝共存:它应该能够以尽可能接近原始模型的方式表达元数据,同时仍然允许使用专业化级别和更通用的级别(如 Dublin Core)之间的映射来实现互操作性。几个案例研究 (http://pro.europeana.eu/case-studies-edm) 说明了将 EDM 应用于文化遗产收藏的挑战和益处。

开放图像平台

[edit | edit source]

Open Images 是一个开放媒体平台,提供对视听档案资料的在线访问,以刺激创意重用。可以下载来自视听收藏的素材,并将其重新混音到新的作品中。Open Images 的用户还可以将自己的素材添加到平台上,从而扩展收藏。Open Images 还提供 API,方便开发混合应用。

所有 Open Images 媒体项目及其元数据可以通过 开放档案倡议元数据收集协议 (OAI-PMH) API 访问。这允许第三方以结构化方式访问 Open Images。OAI-PMH 是机构和平台之间数据和元数据共享的强大工具。例如,OAI-PMH 可用于收集服务器上所有可用数据,或请求特定记录和定期更新。

Open Images OAI 实现使用两种不同的元数据格式。它们都包含名为“oai_dc”(OAI Dublin Core)的 OAI-PMH 记录的必需最小数据集。Dublin Core 是一组可以描述物理对象的元素。oai_dc 包含 Dublin Core 指定的 15 个元素。第二组更全面的元数据元素是对这些核心元素的细化。“oai_oi”(OAI Open Images)是 Open Images 特定的实现,它包含了 DC Terms 的混合以及 ccREL 的 XML 解释。

XSD 用于验证 OAI-PMH 响应。在这个存储库中,必需的 XSD 可用,以及专门为 Open Images 设计的 扩展版本


法国国家图书馆 (BnF)

[edit | edit source]

元数据结构

法国国家图书馆设计了一个新项目,以使它的数据在网络上更有用。“data.bnf.fr”收集来自不同数据库的数据,以便创建关于作品和作者的网页,以及对提取数据的 RDF 视图。这涉及转换现有数据,用内部和外部资源丰富和互联数据集,以及发布 HTML 页面。原始数据以 RDF 格式访问,遵循链接数据的原则,具有开放许可(署名)。data.bnf.fr 从这些数据构建关于主要作者和作品的 HTML 页面,以便立即看到益处。示例:http://data.bnf.fr/11913795/machiavel/ http://data.bnf.fr/11913795/machiavel/rdf.xml

目标

目的是从孤岛中获取数据并将它们放到网络上。所有流程都必须自动进行:我们依赖于在我们所有应用程序中使用持久标识符 (ARK)。该应用程序使用开源软件 CubicWeb 构建。http://www.cubicweb.org/ 更多信息:http://data.bnf.fr/about-en

历史背景

我们需要从几种格式中收集数据:MARC(书目数据库和权威文件:1400 万本书)、EAD(档案和手稿)和 OAI-DC(Gallica 数字图书馆:150 万件)。这些结构化数据必须使用网络标准进行收集。我们想制作既能有效地用于内部,又能被重复使用的东西。我们使用的词汇主要有:

  • SKOS:用于概念
  • FOAF:用于人员
  • DC/RDA:用于资源

更多信息:http://data.bnf.fr/semanticweb-en 批量下载:http://echanges.bnf.fr/PIVOT/databnf_all_rdf_xml.tar.gz?user=databnf&password=databnf

优缺点

优点

- 使“图书馆数据”在网络上完全可用,并具有开放许可 - 资源之间的链接使它们更易于公众使用 - 算法帮助我们改进原始数据 - 网络技术使我们能够了解人们在寻找什么,并相应地调整我们的服务

缺点

- 原始数据中出现的错误 - 规模始终是数百万资源的问题 更多信息:http://data.bnf.fr/docs/databnf-presentation-en.pdf

个人说明

“Sed querelae, ne tum quidem gratae futurae cum forsitan necessariae erunt, ab initio certe tantae ordiendae rei absint”。提图斯·李维,从城邦建立开始,序言 12。联系团队:[email protected]

蓬皮杜中心虚拟博物馆

[edit | edit source]

RDF


法国国家档案馆

[edit | edit source]

联系:Claire Sibille,法国文化和传播部国家档案部档案处理和信息化办公室负责人。法国国家档案馆发布的用于对地方档案馆进行索引的 Thesaurus W

  • EAD(编码档案描述)
  • EAC-CPF(编码档案上下文 - 集体、个人、家庭)

历史:1. XML,2. Excel 表格,3. XML/SKOS(使用 ThManager)今天

  • 每个术语的 URI 标识 + SKOS 定义的术语之间关系
  • 这些术语之间的关系由 RDF 三元组定义
  • 该词库已与 RAMEAU 和 DBpedia 对齐

可以以 HTML 或 RDF/XML 格式进行查询,还可以下载整个数据库的 rdf 文件,并通过 SPARQL 请求进行查询,还可以通过 web API 访问词库

  • URI 可以根据上下文以不同的方式取消引用


加州大学出版社

[编辑 | 编辑源代码]

使用 METS 和 MODS 来管理免费提供的电子书


MusicAustralia

[编辑 | 编辑源代码]

MODS 作为澳大利亚国家图书馆和 ScreenSoundAustralia 之间的交换格式,允许与 MARC 数据保持一致



佛罗伦萨国家中央图书馆

[编辑 | 编辑源代码]

维护意大利图书的国家书目,并开发 Nuovo Soggettario,一个国家通用词库,也可作为 SKOS 在 Creative Commons 2.5 许可证下获得。宣称正在“定义作为生产的元数据的关联数据的在线出版方式”,处于“第一个原型实验阶段”(联系人:Giovanni Bergamin):http://thes.bncf.firenze.sbn.it/thes-dati.htm

SNAC:EAC-CPF

[编辑 | 编辑源代码]

LOCAH:EAC-CPF

[编辑 | 编辑源代码]

Archive Hub、COPAC 与其他数据库(例如 BBC、OCLC、LCSH)建立关联数据链接。

华夏公益教科书