跳到内容

开放元数据手册/元数据标准

来自维基教科书,开放世界开放书籍

技术现状

[编辑 | 编辑源代码]

序列化方案

[编辑 | 编辑源代码]
  • Turtle,用于三元组;也包括 RDF/XML
  • XML,用于可以以平面记录形式进行标记的数据
  • MARC 是一种可以承载多种数据类型的序列化方案(如 ISO 2709)



元数据数据模型

[编辑 | 编辑源代码]

kc:最好将这些模型分成元数据元素模型和值词汇表模型。SKOS 将属于后者。

数据模型明确地确定数据或结构化数据(与内容无关)的结构。元数据数据模型独立于正在使用的词汇表,专门描述元数据模式的语法。它仅仅描述元数据“领域”中的实体,独立于任何序列化。


W3C 标准资源描述框架 (RDF) 是机器可处理语义的默认基础。RDF 数据模型不是真正的元数据模式,而仅仅提供了一个抽象的概念框架,用于定义和使用元数据或其他元数据模型。它可以用来描述或创建新的模型(对象/属性),用于对可以使用各种语法格式在 Web 资源中实现的信息进行概念性描述或建模。

RDF 数据模型对应用数据模型的表达施加结构约束,以便一致地编码、交换和处理元数据。尽管它并非唯一,但 RDF 绝对是当今使用最多的元数据模型。它是部署最广泛的模型,也是拥有最多词汇表的模型。RDF 受到 W3C 和许多大学的认可,它提供了大量已实现和维护的本体和词汇表。只要 RDF 中已正确实现和维护的所有本体和词汇表都可供开放式书目工作使用,这些本体和词汇表就可以轻松地被采用,前提是这些本体和词汇表可供使用,并具有开放许可证。

因此,RDF 没有特定的领域,它是一个通用框架,必须扩展词汇表和本体才能描述某些内容。资源描述基于对象和属性,这些对象和属性本身在 RDF 中进行描述。使用 RDF,因此可以描述/生成用于描述资源或事物的新词汇表——这些词汇表本身可能也是词汇表(例如,各种 OWL 词汇表)。RDF 被制定为概念和本体的分层结构——最终创造新的概念。就像面向对象编程中可以通过扩展其他类来创建新类一样,RDF 允许通过扩展其他概念来创建新概念。区别在于 RDF 是属性导向的,而不是面向对象的。

在 RDF 中,一切都是基于“语义三元组”的概念:主体、属性、客体

  • 主体是由 URI/URL 标识的资源
  • 属性是另一个由 URI 标识的资源。它必须在其他地方定义(例如,它们可以从字典、命名空间、模式或本体中提取)
  • 客体可以是 URI 或“值”:字符串、数字等。或者它最终可以是空白节点 (http://en.wikipedia.org/wiki/Blank_node)

RDF 还定义了其他本体可以建立在其上的基本概念。这些基本元素是

  1. 类:资源、类、属性、列表、文字、数字等。
  2. 属性:“是”=>“类型”、子类、子属性、标签等。

所有其他内容都可以从中推导出来,即每个词汇表 RDF/OWL 的每个类始终都是 rdf:class 如果需要一个尚不存在的属性,可以编写一个创建/描述它的 RDF 文档。一旦定义了该属性,它便存在并可以在任何其他 RDF 文档中使用。

例如,FOAF 本体提供了 Foaf:Person 的定义,它是一个 RDF:Class,描述如下

<rdf:type rdf:resource="http://www.w3.org/2002/07/owl#Class"/>    // the entity is of type OWL Class
rdfs:label="Person"                                               // the name of the entity is "Person"
rdfs:comment="A person."
<rdfs:subClassOf><owl:Class rdf:about="http://xmlns.com/foaf/0.1/Agent"/></rdfs:subClassOf>      // the entity is a subclass of the Class Agent
<owl:disjointWith rdf:resource="http://xmlns.com/foaf/0.1/Org"/>  // the entity has the property of being disjoint with the entity Organisation

例如,参见 http://www.w3.org/People/Berners-Lee/card.rdf,它使用各种词汇表(OWL)来描述伯纳斯·李


  • 可扩展性和适应性
  • RDF 可以用 3 种不同的方式表达(turtle、n3、xml),并且理论上可以用来描述任何事物。
  • RDF 允许不同的社区定义自己的语义:任何人都可以基于预先存在的本体创建新的本体来描述新的资源
  • RDF 允许在同一个 RDF 文件中集成无限数量的本体(作为术语/属性/资源的字典)
  • 流行度
  • RDF 由 W3C 认可,并在许多学术项目中使用。在网上很容易找到维护良好且有良好文档的 RDF 本体。
  • 开放书目数据
  • SPARQL
  • SPARQL 是一个极其强大的查询系统,可用于查询已插入 RDF 元数据的数据库

缺点

[edit | edit source]
  • 外部依赖
  • 为了描述任何东西,RDF 必然要依赖一个或多个外部来源。
  • 资源密集型
  • RDF 可能需要大型三元组存储(包含数亿个三元组)和 SPARQL 系统,这些系统可能变得过于沉重。目前许多机构没有足够的设施来很好地处理这些问题。
  • 对于应该简单的书目任务(例如管理数百万条书目记录)来说,负担过重且缺乏可扩展性。
  • 开放书目数据
  • RDF 作为抽象模型可能很好,但它在开放书目目的方面的实际应用仍有待提供和支持。只有非常大的参与者才能管理处理 RDF 所需的基础设施(而且他们无法保证数据公开)?
  • SPARQL
  • 使用 SPARQL,如果查询不可完全预测,则可能导致 NP(即无法在任何确定时间内返回)

BibTex  ???

[edit | edit source]

BibTex 是用于格式化参考文献列表的参考文献管理软件。BibTeX 工具通常与 LaTeX 文档准备系统一起使用。它是一个可以扩展以支持“字典”(称为样式)以涵盖其他应用领域的系统 - 但它本身不是元数据格式(即使它可以用作元数据格式)。到目前为止,它实际上既用作聚合包含文章元数据的数百万条参考文献的格式,也用作提供书目数据的方面显示的格式。这两个目的都不是其创建者想要的,但 BibTeX 创建者在 BibTeX 数据模型的灵活性和可扩展性方面表现出良好的判断力,因此它已可用于(尽管被拉伸)这些其他目的。

  • PDF:是否值得提及?它与指南没有直接关系,而且似乎只增加了我的复杂性。
  • JP:BibTex 当然不应推荐用于新的元数据创建。相反,它的 BibJSON 转世应该优先考虑,并与 BibJSON 的一些更严格的公式一起使用,例如使用 JSON 模式 http://tools.ietf.org/html/draft-zyp-json-schema-03

元数据模式

[edit | edit source]

元数据语法是指创建的用于结构化元数据字段或元素的规则。单个元数据方案可以用多种不同的标记或编程语言表达,每种语言都需要不同的语法。例如,Dublin Core(一种元数据方案)可以用纯文本、HTML、XML 和 RDF 等多种方式表达。原因是 DC 不是一个单一的东西。(KC:不正确。这是因为属性是在 RDF 中定义的,而 RDF 是序列化中立的。对于任何 RDF 定义的元数据都是如此。)DC 是一个联盟,它为每种元数据类型发布不同的规范,以便 DC 可以被用于任何地方和任何方式。


基于元数据数据模型

[edit | edit source]

例如,基于 RDF 的各种 OWL

基于元数据数据模型的元数据模式可以被认为是自描述的元数据:元数据包含足够的信息,使组件、其属性及其与其他实体的关系能够完全自描述。

OWL(词汇表) - OWL 基于 RDF。它们提供智能代理从 RDF 三元组定义的原始数据中提取有价值信息所需的语义链接。任何与 OWL 兼容的东西都必然是 RDF,但反之则不然,因为 OWL 是 RDF 的子集(就像 RDF/xml 是 XML 的子集一样)已经开发了各种本体,每个本体都有特定的目的。如果现有的本体都不适合特定应用,则可以创建新的本体。

kc:OWL 和 FOAF 属于完全不同的类别。OWL 是一种用于定义元数据模式的语言,FOAF 是一个实现。它们不应该在同一个部分。

Friend of a Friend (FOAF) RDF 词汇表,使用 W3C RDF Schema 和 Web 本体语言进行描述。它旨在描述群体和个人,它提供基本属性和资源来表达诸如以下概念:朋友、儿子、居住地、工作地点、认识某人、是我的、等等有关更多信息,请参见:http://xmlns.com/foaf/0.1/index.rdf http://www.foaf-project.org/

Dublin Core

[edit | edit source]

描述物理资源(如书籍)、数字材料(如视频、声音、图像或文本文件)以及复合媒体(如网页)。基于 Dublin Core 的元数据记录旨在用于跨域信息资源描述,并在图书馆学和计算机科学领域成为标准。简单 Dublin Core 元数据元素集 (DCMES) 包含 15 个元数据元素:标题、创建者、主题、描述、出版者、贡献者、日期、类型、格式、标识符、来源、语言、关系、范围、权利 Dublin Core 的实现通常使用 XML,并且基于资源描述框架。有关更多信息,请参见:http://dublincore.org/documents/dcmi-terms/ http://dublincore.org/2010/10/11/dcterms.rdf Dublin Core 应用配置文件的组件与“领域标准”(社区更广泛使用的模型和规范)以及 RDF 相关。- 描述集配置文件基于 DCMI 抽象模型 (DCAM),因为它们指定了 DCAM 的实体如何在特定元数据集中使用。从这个意义上说,DCAM 构成了一种广受认可的元数据记录结构组件模型。DCAM 反过来又以 RDF 为基础。- 描述集配置文件通常使用标准元数据词汇表中定义的属性和类,例如 DCMI 元数据术语。元数据词汇表反过来又以 RDF 词汇表描述语言(也称为 RDF Schema 或 RDFS)为基础。- 应用中使用的领域模型通常基于更广泛使用的领域模型;例如,书目记录功能需求 (FRBR) 通用模型是图书馆界资源描述的重要参考点。


Dublin Core 的扩展,用于描述书目数据。书目本体规范提供了描述引文和书目参考文献(即引文、书籍、文章等)的主要概念和属性。

POWDER

[edit | edit source]

网络描述资源协议 (POWDER) 是 W3C 推荐的描述网络资源的方法。它指定使用 RDF、OWL 和 HTTP 发布有关网络资源的元数据的协议。有关更多信息,请参见:http://www.w3.org/2007/05/powder-s


语义出版与引用本体http://sempublishing.svn.sourceforge.net/viewvc/sempublishing/SPAR/index.html 构成一套正交且互补的本体模块,用于为语义出版和引用的所有方面创建全面的机器可读 RDF 元数据。SPAR 中的组件本体在下面的花状图 (图 1) 中命名。这些本体可以根据需要单独使用或结合使用。每个本体都用 Web 本体语言 OWL 2.0 DL 编码。它们共同提供了描述远不止简单的书籍和期刊文章等书目实体的能力,通过使 RDF 元数据能够被创建来将这些实体与参考文献、书目记录、文档的组成部分以及学术出版过程的各个方面联系起来。所有 8 个 SPAR 本体 - FaBiO、CiTO、BiRO、C4O、DoCO、PRO、PSO 和 PWO - 都可供检查、评论和使用。它们可用于描述书目对象、书目记录和参考文献、引用、引用计数、引用上下文及其与引文相关部分的关系,以及书目记录和参考文献在书目、有序参考文献列表和图书馆目录中的组织,文档组件,出版角色,出版状态和出版工作流程。在适当的情况下,SPAR 本体,特别是 FaBiO(与 FRBR 协调的书目本体)和 BiRO(书目参考文献本体),采用了 FRBR(书目记录功能需求)编目模型,这是一个由国际图书馆协会联合会(IFLA)开发的概念实体关系模型,作为对书目宇宙的广义视图,旨在独立于任何编目规则或实现 [Sau98, Til03]。FRBR 区分作品、表达、表现和项目。

Geo 是一个基本的 RDF 词汇,它为语义网社区提供了一个命名空间,用于使用 WGS84 作为参考基准来表示经度、纬度以及关于空间定位事物的其他信息。有关更多信息,请参阅:http://www.w3.org/2003/01/geo/

GeoNames 本体使为万维网添加地理空间语义信息成为可能。现在,超过 620 万个 GeoNames 地名都有一个唯一的 URL,对应一个 RDF Web 服务。有关更多信息,请参阅:http://www.geonames.org/ontology/documentation.html kc:本节应将元数据属性与值词汇表分开(用于作为属性值的受控术语列表,如地理名称、ISO 语言代码、各种主题词和词典)

书目记录功能需求规范化了一组对任何编目人员都至关重要的术语和关系。有关更多信息,请参阅:http://purl.org/vocab/frbr/frbr-core-20050729.rdf http://purl.org/vocab/frbr/core http://metadataregistry.org/schema/show/id/5.html 这是“官方”版本 - 其他版本已过时,未经 FRBR 开发组批准。此外,FRBR 既是通用模型,也是一组属性。

CIDOC/CRM

[编辑 | 编辑源代码]

CIDOC 概念参考模型 (CRM) 是一个正式本体,它提供了用于描述文化遗产文档中使用的隐式和显式概念和关系的定义和正式结构。它为不同类型的资源提供了一个集成框架:档案、图像、地点、对象有关更多信息,请参阅:http://www.cidoc-crm.org/rdfs/cidoc-crm

      • CIDOC 通常由博物馆用来描述文物而不是书目实体?是否有它用于书目数据的现实世界例子?

用于描述代码、许可证、存储库、作者、补丁等从未见过 DOAP 用于书目元数据?例子?


数字资源术语

[编辑 | 编辑源代码]

用于描述和链接到数字资源。这些是 Dublin Core 元素集和 Dublin Core 限定词的扩展,在数字资源描述 (DRD) 应用程序配置文件 (http://www.natlib.govt.nz/dr/drd.html) 中使用。有关更多信息,请参阅:http://www.natlib.govt.nz/dr/drterms.rdf http://www.natlib.govt.nz/dr/terms

数字资源角色

[编辑 | 编辑源代码]

用于描述数字资产在数字资源中扮演的角色的受控术语词汇表。它旨在用于数字资源描述 (DRD) 应用程序配置文件 (http://www.natlib.govt.nz/dr/drd.html)。它最初是由新西兰国家图书馆开发的,以帮助跟踪从源数字文件创建的多个衍生文件。有关更多信息,请参阅:http://www.natlib.govt.nz/dr/drrole.rdf http://www.natlib.govt.nz/dr/role

BibTeX in OWL

[编辑 | 编辑源代码]

BibTeX 书目标记语言在 OWL 中的重新表述,用于 RDF 和语义网应用程序。有关更多信息,请参阅:http://zeitkunst.org/projects/bibtex-owl

行业标准元数据发布需求 http://www.idealliance.org/specifications/prism/

公共广播元数据字典项目 http://pbcore.org

http://loc.gov/premis/

资源描述与访问 (RDA) 这是最新的图书馆编目规则集,并由在 RDF 中定义的元素集支持。RDA 是 FRBR 模型的实现。它大约有 1400 个属性和 60 多个术语列表。它涵盖文本、声音、电影、制图材料和对象,以及档案材料。 http://metadataregistry.org/rdabrowse.htm/

CG:这看起来非常相关,尤其是因为它是在 RDF 中定义的(之前不知道这一点)

语义出版和引用 对于引用,包括引用类型词汇表 (CITO) http://purl.org/spar/fabio/ http://purl.org/spar/cito

规范引用

[编辑 | 编辑源代码]

规范引用的键/编码值元数据格式 http://alcme.oclc.org/openurl/servlet/OAIHandler?verb=GetRecord&metadataPrefix=oai_dc&identifier=info:ofi/fmt:kev:mtx:canonical_cit



(W3C 标准) kc: 再次说明,这是一种语言,而不是实现 简单知识组织系统 (SKOS) 为表达概念体系(如词典、分类体系、主题词表、分类法、大众分类法和其他类似类型的受控词汇)的基本结构和内容提供了一种 RDF 模型。 它可以单独使用,也可以与更正式的语言(如 Web 本体语言 (OWL))结合使用。 SKOS 的目标不是取代最初使用环境中的原始概念词汇表,而是允许它们被移植到一个基于简化模型的共享空间中,从而实现更广泛的重复使用和更好的互操作性。 SKOS 引入了 skos:Concept 类,允许实现者断言给定资源是一个概念。 在基本的 SKOS 中,概念资源(概念)通过 URI 标识,使用一种或多种自然语言的字符串标记,使用各种类型的注释记录,在非正式的层次结构和关联网络中彼此语义关联,并聚合到概念体系中。 更多信息请访问 http://www.w3.org/TR/skos-primer/

MADS 是另一个描述主题、名称和其他“权威”的标准。 它有一个 RDF 词汇表,美国国会图书馆现在使用它(以及 SKOS)来导出权威信息。 参见 http://www.loc.gov/standards/mads/ 中的描述 - 权威数据的 XML 格式(从 MARC 21 权威数据派生) - 名称、主题、标题、地理位置、类型的描述 - 使用与 MODS 相同的结构

RDFa (w3c 建议) http://www.w3.org/TR/xhtml-rdfa-primer/ 嵌入 HTML 文档中的 RDF。

独立于任何元数据数据模型

[编辑 | 编辑源代码]

例如,基于自定义的格式,依赖于特定的标记语言(JSON、XML 或其他)。 不基于元数据数据模型的元数据模式不是自描述的:标记语言的含义是在解析器逻辑中实现的:元数据不是自描述的。 基于自定义的格式,依赖于特定的标记语言(JSON、XML 或其他)。 它们都定义了自己的规范,其中包含一系列可以被认为有效的标签。 例如,Facebook、Twitter、Google 的 API

优点:- 处理起来要容易得多,并且通常可以实现类似的结果 - 文档易于解析 - 没有任何类型的层次依赖性 - 对于数据库插入和提取非常方便(例如,Google 的大表、CouchDB、非关系型数据库、NoSQL 等) - 保持格式尽可能简单,降低了合规门槛。

缺点:- 大多数这些标准本质上彼此不兼容 - 除非提供适当的文档,否则无法处理元数据 - 标记语言的含义是在解析器逻辑中实现的:元数据不是自描述的。

图书馆特定标准的缺点

  • 缺乏标准化:许多图书馆标准,如 MARC 或 Z39.50,是在图书馆特定的环境中开发的或正在开发的。 图书馆的标准化通常由专门致力于该领域的机构进行,例如国际图联或 RDA 开发的 JSC。



Dublin Core

[编辑 | 编辑源代码]

都柏林核心已实施为一个实际上独立于 RDF 的标准。 可以潜在地合并到任何标准中,例如 XML:http://dublincore.org/documents/dc-xml-guidelines/

  • 都柏林核心是一个稳定且定义良好的标准。
  • 它提供了一组语义互操作的属性
  • 它由一系列经过专门和准确定义的字段组成。
  • 对于完全控制的数据库,它是一个很好的标准,可以作为工作规则来实施
  • 如果需要处理来自他人的数据,而这些数据可能包含或可能不包含所有必需的元素,则会出现问题。
  • 无法从都柏林核心范围之外的附加元数据中获益

例如,一张照片可能包含元数据,例如:拍摄照片的相机类型、设置(F 值、变焦级别、ISO..)、位置等,即使是这些有用的元数据,这种信息也超出了都柏林核心的范围,无法被纳入。 任何自由格式或可扩展的元数据系统(例如键值对)都可以解决该缺点。(RDF 的优点是它可以自然地处理这个问题,但它也可以处理随时间推移的修改。)

Schema.org

[编辑 | 编辑源代码]

Schema.org 是一个由 Bing、Google 和 Yahoo! 于 2011 年 6 月 2 日发起的项目,旨在将语义网的概念引入网站。 2011 年 11 月 1 日,Yandex(俄罗斯最大的搜索引擎)加入了该项目。 世界上最大的搜索引擎的运营商建议使用微数据根据他们的模式标记网站内容作为关于其本身的元数据。 这些模式可以被搜索引擎蜘蛛和其他解析器识别,从而访问网站的含义。 该项目从少量格式开始,但长期目标是支持更广泛的模式 Schema.org 提供了一组模式(即 html 标签),可用于简单的书目数据,目前正在被主要搜索引擎公司(例如 Google、Bing、Yahoo!)推广。 许多网站都是从结构化数据生成的,这些数据通常存储在数据库中。 当这些数据被格式化为 HTML 时,恢复原始结构化数据变得非常困难。 许多应用程序,尤其是搜索引擎,可以从直接访问这些结构化数据中获益良多。 页面内标记使搜索引擎能够理解网页上的信息并提供更丰富的搜索结果,从而使用户更容易在网上找到相关信息。 标记还可以启用利用结构的新工具和应用程序。

以下是 Schema.org/Book 可以具有的属性的简要概述(括号中的值表示属性值的类型):来自 http://schema.org/Thing 的属性

  • description
  • image(URL)
  • name
  • url(URL)

来自 http://schema.org/CreativeWork 的属性

  • about(Thing)
  • aggregateRating(AggregateRating)
  • audio(AudioObject)
  • author(Person or Organization)
  • awards
  • contentLocation(Place)
  • contentRating
  • datePublished(Date)
  • editor(Person)
  • encodings(MediaObject)
  • genre
  • headline
  • inLanguage
  • interactionCount
  • isFamilyFriendly(Boolean)
  • keywords
  • offers(Offer)
  • 出版商(Organization)
  • 评论(Review)
  • 视频(VideoObject)

来自http://schema.org/Book的属性

  • 书籍版本
  • 书籍格式(BookFormatType)
  • 插图(Person)
  • ISBN
  • 页数(Integer)

示例:以下是如何将关于电影的信息及其信息结构嵌入到网站中的示例。为了标记数据,使用属性 itemtype 以及架构的 URL。属性 itemscope 定义了 itemtype 的范围。可以使用属性 itemprop 定义当前项目的类型。在电影的架构中,有一个人的架构。

<div itemscope itemtype="http://schema.org/Movie">
  <h1 itemprop="name">Avatar</h1>
  <div itemprop="director" itemscope itemtype="http://schema.org/Person">
  Director: <span itemprop="name">James Cameron</span> (born <span itemprop="birthDate">August 16, 1954</span>)
  </div>
  <span itemprop="genre">Science fiction</span>
  <a href="../movies/avatar-theatrical-trailer.html" itemprop="trailer">Trailer</a>
</div>

发布非结构化数据的 OPAC 会生成类似这样的 HTML

<div> 
<h1>Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: Paul Bryers (born 1945)</span> 
 <span>Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

第一步是将某项标记为根对象。您可以使用 itemscope 属性来完成此操作

<div itemscope> 
<h1>Avatar</h1>
 <span>Author: Paul Bryers (born 1945)</span> 
 <span>Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

一个支持微数据的搜索引擎会查看它并开始构建模型。

第二步是使用微数据和 Schema.org 为对象指定类型。您可以使用 itemtype 属性来完成此操作

<div itemscope itemtype="http://schema.org/Book"> 
<h1>Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: Paul Bryers (born 1945)</span> 
 <span>Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

现在,模型中的对象已获取类型“Book”(更准确地说是类型“http://schema.org/Book”)。

接下来,我们为 Book 对象添加一些属性

<div itemscope itemtype="http://schema.org/Book"> 
<h1 itemprop="name">Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: 
<span itemprop="author">Paul Bryers (born 1945)</span></span> 
 <span itemprop="genre">Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg">
</div>

到目前为止,所有属性值都是简单的文本字符串。我们也可以添加指向链接的属性

<div itemscope itemtype="http://schema.org/Book"> 
<h1 itemprop="name">Avatar (Mysteries of Septagram, #2)</h1>
 <span>Author: 
<span itemprop="author">Paul Bryers (born 1945)</span></span> 
 <span itemprop="genre">Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg" 
itemprop="image">
</div>

模型正在增长。

最后,我们想说作者 Paul Bryers 本身也是一个对象。事实上,我们必须这样做,因为作者属性的值在 Schema.org 中必须是 Person 或 Organization。因此,我们添加另一个 itemscope 属性,并为他添加一些属性

<div itemscope itemtype="http://schema.org/Book"> 
<h1 itemprop="name">Avatar (Mysteries of Septagram, #2)</h1>
 <div itemprop="author" itemscope itemtype="http://schema.org.Person">
Author:  <span itemprop="name">Paul Bryers</span> 
(born <span itemprop="birthDate">1945</span>)
 </div>
 <span itemprop="genre">Science fiction</span>
 <img src="http://coverart.oclc.org/ImageWebSvc/oclc/+-+703315758_140.jpg" 
itemprop="image">
</div>

MARCXML

[edit | edit source]

一种国际描述性元数据格式。一种遗留格式,其中仍然维护着大量书目信息。组件

  • 标记:数据元素集
  • 语义:元素的含义(但内容由其他标准定义)
  • 结构:用于通信的语法

MARC 字段与国际标准书目著录(ISBD)相连,ISBD 由国际图书馆界通过数十年时间制定,其中元素用标点符号标记。虽然 ISBD 看起来很复杂,但它也允许非常简单的用法,例如:书名 / 作者。- 城市:出版商,年份。

存在许多不同的 MARC 版本:法国、美国、英国等的国家机构最初开发了自己的国家 MARC,随后这些 MARC 在国际 UNIMARC 中统一。然而,近年来,由于美国 MARC 被用于美国目录(其数据也被导入美国以外),它们已取代 UNIMARC。因此,在实践中,不同国家的图书馆目录将使用不同的 MARC 版本。

优点
[edit | edit source]
  • 利用 XML:在 XML 结构中建立 MARC 21 标准
  • 通过协调的工具集实现与不同架构的互操作性

例如,广泛使用基于 MARC 的书目实用程序和 ILS 实现,用于具有可预测内容的标准通信格式,以及用于记录共享(例如,Open MARC 21 到 XML 编程工具和演示文稿样式表)

  • 将 MARC 21 标准化,用于 OAI 收获
  • 标准化与其他标准格式(DC、ONIX 等)之间的转换

(元数据对象描述架构) 是 MARC 元素的派生(子集),旨在创建一个更简单但兼容的替代方案,这是一个丰富(但不太丰富)的 XML 元数据格式,适用于新兴计划

  • 作为 METS(元数据编码和传输标准)的扩展架构
  • 用于表示用于收获的元数据 (OAI)
  • 作为 MARC 和非 MARC XML 架构之间融合的互操作核心
  • 用于将元数据与资源打包在一起(例如,METS)

= 专为图书馆应用程序设计,但它可以更广泛地使用

优点
[edit | edit source]
  • 使用基于语言的标签
  • 元素通常继承 MARC 的语义
  • MODS 不假定使用任何特定编目代码
  • MODS 特别适用于
  • 与现有书目数据的兼容性
  • 相关项目中的嵌入式描述
  • 与 METS 结构图配合使用的丰富、分层描述
  • “开箱即用”架构;可以使用 用于本地元素,并将其他架构中的外部元素引入进来

http://www.refman.com/support/risformat_intro.asp 可能是最广泛支持的书目参考文献格式。得到商业软件工具和服务的广泛支持。开放工具和服务怎么样?那么 BibTeX 可能会胜出。

优点
[edit | edit source]
  • 简单
  • 广泛使用
缺点
[edit | edit source]
  • 专有(我认为)。了解格式的确切 IP 状态会很有趣。当然,大多数工具和服务都是专有的。RefWorks 及其同类产品。
  • 过于简单
  • 规范并不总是与用法相符 - 例如,规范缺少用于 DOI 的标签,尽管 DOI 被广泛使用和理解


来自 EDItEUR 的 ONIX International(基于 XML 的图书出版商元数据标准)http://www.editeur.org/12/About-Release-3.0/


BibJSON

[edit | edit source]

http://bibserver.okfn.org/bibjson/ BibJSON 是关于如何在 JSON 中表示书目元数据的简单描述。它也是基于 BibTeX 模型。JSON 对象是键值对的无序列表。BibJSON 对象是作为 JSON 对象的书目记录。BibJSON 只是 JSON,但我们对特定键的含义有一些约定。我们希望从各种其他格式编写解析器到 BibJSON,以使人们更容易共享书目记录和集合。请参阅 http://bibserver.okfn.org/roadmap/open-bibliography-for-stm/ http://www.bibkn.org/bibjson/index.html

元数据协议和容器

[edit | edit source]

协议

[edit | edit source]

OAI-PMH

[edit | edit source]

(开放档案倡议元数据收获协议) 由开放档案倡议开发的一种协议。它用于收获(或收集)档案中记录的元数据描述,以便可以使用来自多个档案的元数据构建服务。特别是在每天收获数千个文件时,OAI-PMH 可以通过增量收获来帮助减少网络流量和其他资源使用。mod_oai 项目使用 OAI-PMH 将内容公开给可从 Apache Web 服务器访问的网络爬虫。

  • OAI-PMH 的实现必须支持以 Dublin Core 表示元数据,但也可以支持其他表示。

OAI 协议已被许多数字图书馆、机构知识库和数字档案广泛采用。虽然注册不是强制性的,但鼓励注册。有几个大型的 OAI 兼容库注册中心:- 开放档案注册的 OAI 存储库列表 - 伊利诺伊大学厄巴纳-香槟分校的 OAI 注册中心 - 天体 OAI 注册中心 - Eprint 的机构档案注册中心 - Openarchives.eu - 全球 OAI-PMH 兼容存储库的欧洲指南 - ScientificCommons.org - 全球服务和注册中心

商业搜索引擎已开始使用 OAI-PMH 获取更多资源:- 谷歌已将 OAI-PMH 纳入其 Sitemap 协议,但于 2008 年决定停止使用。谷歌目前正在使用 OAI-PMH 从澳大利亚国家图书馆数字对象库中收集信息。- 雅虎!从 OAIster(密歇根大学)获取内容,这些内容是通过使用 OAI-PMH 进行元数据收集获得的(2004 年)。- 维基百科使用 OAI-PMH 存储库为搜索引擎和其他批量分析/重新发布工作提供维基百科(及其姊妹项目)更新的供稿。- NASA 的 Mercury:元数据搜索系统使用 OAI-PMH 每天索引来自全球变化主目录 (GCMD) 的数千条元数据记录。


  • Atom 发布协议 (AtomPub 或 APP) 是一种简单的基于 HTTP 的协议,用于创建和更新 Web 资源。
  • Atom 聚合格式是一种用于 Web 供稿的 XML 语言(供稿包含条目,这些条目可能是网站上的标题、全文文章、摘录、摘要和/或内容链接,以及各种元数据)。Atom 格式被开发为 RSS 的替代方案。

新格式的支持者组成了 IETF Atom 发布格式和协议工作组。Atom 聚合格式在 RFC 4287 (2005 年 12 月)中发布为 IETF 提案标准,Atom 发布协议在 RFC 5023 (2007 年 10 月)中发布。2003 年 12 月发布的 Atom 0.3 在聚合工具中获得了广泛采用,特别是它被添加到几个与 Google 相关的服务中,例如 Blogger、Google 新闻和 Gmail。谷歌的 Data API(测试版)GData 基于 Atom 1.0 和 RSS 2.0。

所有 Atom 供稿都必须是格式良好的 XML 文档,并使用 application/atom+xml 媒体类型标识。待办事项:Atom 偏爱哪些格式?


SPARQL

[edit | edit source]

SPARQL 代表 SPARQL 协议和 RDF 查询语言。它允许查询包含三元组模式、合取、析取和可选模式。SPARQL 允许用户编写全局无歧义的查询。更多信息请访问:http://www.w3.org/TR/rdf-sparql-protocol/ http://en.wikipedia.org/wiki/SPARQL

可扩展消息和状态协议 (XMPP) 是一种基于 XML(可扩展标记语言)的消息中间件开放标准通信协议。[1] 该协议最初名为 Jabber,由 Jabber 开源社区于 1999 年开发,用于近实时、可扩展的即时消息 (IM)、状态信息和联系人列表维护。该协议旨在可扩展,如今也应用于 VoIP 和文件传输信令。使用 XMPP,可以在编目时实时捕获事件流。更多信息请访问:http://en.wikipedia.org/wiki/Extensible_Messaging_and_Presence_Protocol


Z39.50

[edit | edit source]

最广泛部署的、当前活跃的(在生产系统中)远程图书馆目录互操作搜索方法。目前所有国家图书馆、大多数学术图书馆以及许多公共/私人收藏都支持该方法。

Z3950 是一种基于状态的会话的 BER 编码 ASN.1 定义的信息检索协议。虽然其主要功能是访问单个远程目标,但该协议构成了许多当代广播和元搜索系统(虚拟联合目录)的基础,这些系统需要实时搜索,尽管存在基于 HTTP 的替代方案,例如 MetaOPAC Azalai Italiano (MAI)。这可以与所有数据都被收集到单个存储库中的物理联合目录进行比较。虚拟联合目录的明显优势是实时更新馆藏和可用性信息,以及将安全评估委派给网络中的叶子节点(即安全无法委派给单个收集节点的地方)。

该协议本身不规定记录语法(MARC、XML、GRS 等),只指定检索操作的语义。不同的记录语法可用于传达关于书目项的不同语义。例如,国家 MARC 变体是书目信息常用的有效载荷,其他语法,如 GRS-1 编码的 opac-1 格式,可用于查询实时可用性和馆藏信息。客户端可以自由地请求同一记录的多种编码。利用这种功能,Z3950 也可用作图书馆预约和馆际互借子系统的源数据,尽管这些功能更常被更新的流通协议支持(这些协议在互操作性级别上通常在供应商之间存在较少的共识)。Z3950 还具有扩展服务功能,提供项目订单和记录上传等服务。

不应将 Z3950 与 Apache SOLR 等索引系统混淆。Z3905 指定了一个标准接口,该接口用作检索索引的公开定义的访问层。目前至少存在 2 个 Z3950 <-> SOLR 桥。

其他信息

索引数据在 http://irspy.indexdata.com/ 上维护着公开可用的 Z3950 目标及其功能的实用元索引。

http://en.wikipedia.org/wiki/Z39.50

优点
[edit | edit source]

也许 Z3950 最有价值的部分在于它在供应商之间丰富的互操作性和合作传统。Z3950 实现者组由图书馆和软件供应商的代表组成,力求避免创建互操作书目系统中存在的许多问题。

然而,该协议的主要优势在于它以一种方式隔离了检索端点,使其不受索引技术和记录有效载荷变化的影响。

Z3950 也用于提供主题词典和其他受控词汇表。

作为有效载荷不可知的协议,Z3950 这些年来已在许多不同的场景中部署,从提供对美国政府信息 (GILS)、文化数据集 (PADS,表演艺术数据服务)、档案 (ArchivesHub)、美国地质调查局及其空间数据清理服务 (USGeo) 的可搜索访问。Z3950 构建了一个框架,通过定义抽象搜索访问点(使用属性)允许对所有这些不同的信息类型进行互操作的交叉搜索。

缺点
[edit | edit source]

Z3950 的一个主要批评是缺乏基于标准标识符的服务器中项目的访问。项目级访问是通过结果集中的序数位置进行的,没有通过唯一 ID 直接访问项目。这意味着大多数项目级访问必须被描述为对特定唯一 ID 的搜索,以及对该结果的检索操作。虽然在实践中这不是问题,但它可能会使第一次使用该协议时感觉笨拙。

基于 Z3950 的现代交叉搜索系统通常因没有提供良好的用户体验而受到批评。但是,突出显示的许多问题是交叉搜索固有的,并非 Z3950 的特定问题。然而,确实存在一些行为不端的 Z3950 目标,开发人员社区已经积累了大量针对 Z3950 目标环境的变通方法和知识。

SRU/SRW

[edit | edit source]

SRU 出自 Z3950 实现者组的讨论,他们认识到需要为原始的 BER 编码协议找到一个类似 REST 的替代方案/替代方案。许多相同应用程序结构可以在 SRU(类似 REST 的基于 URL 的检索)/SRW(SOAP)中找到,就像在源 Z3950 协议中一样。

其他信息

http://www.loc.gov/standards/sru/



容器

[edit | edit source]

METS 模式是一种用于对数字图书馆中对象进行描述性、管理性和结构性元数据编码的标准,使用万维网联盟的 XML 模式语言表达。该标准由美国国会图书馆的网络开发和 MARC 标准办公室维护,并作为数字图书馆联盟的倡议正在开发中。METS,一个数字图书馆联盟的倡议,试图在 MOA2 的工作基础上进行构建,并提供一种 XML 文档格式,用于对数字图书馆对象在存储库中的管理和存储库之间(或存储库与其用户之间)交换所需的元数据进行编码。根据其用途,METS 文档可在开放档案信息系统 (OAIS) 参考模型中用作提交信息包 (SIP)、档案信息包 (AIP) 或传播信息包 (DIP)。METS 这样的容器是解决组合描述性和非描述性元数据问题的其中一种方法。METS 文档包含七个主要部分

  • METS 标题 - METS 标题包含描述 METS 文档本身的元数据,包括创建者、编辑等信息。
  • 描述性元数据 - 描述性元数据部分可以指向 METS 文档外部的描述性元数据(例如,OPAC 中的 MARC 记录或 WWW 服务器上维护的 EAD 查找帮助),或包含内部嵌入的描述性元数据,或两者兼而有之。描述性元数据部分中可以包含多个外部和内部描述性元数据的实例。
  • 管理性元数据 - 管理性元数据部分提供有关文件创建和存储方式、知识产权、有关数字图书馆对象来源的原始源对象的元数据以及有关构成数字图书馆对象的文件来源的信息(即,主文件/派生文件关系以及迁移/转换信息)。与描述性元数据一样,管理性元数据可以位于 METS 文档外部,也可以在内部进行编码。
  • 文件部分 - 文件部分列出了所有包含内容的文件,这些文件构成数字对象的电子版本。<file> 元素可以分组在 <fileGrp> 元素中,以提供按对象版本对文件进行细分的机制。
  • 结构化地图 - 结构化地图是 METS 文档的核心。它概述了数字图书馆对象的层次结构,并将该结构的元素链接到与每个元素相关的內容文件和元数据。
  • 结构化链接 - METS 的结构化链接部分允许 METS 创建者记录结构化地图中概述的层次结构中的节点之间超链接的存在。这在使用 METS 归档网站方面特别有用。
  • 行为 - 行为部分可用于将可执行行为与 METS 对象中的内容相关联。行为部分中的每个行为都有一个接口定义元素,它表示特定行为部分所代表的行为集的抽象定义。每个行为还具有一个机制元素,该元素标识实现和运行接口定义抽象定义的行为的可执行代码模块。

可以在 http://www.loc.gov/standards/mets/METSOverview.v2.html 中找到每个部分及其相互关系的更详细说明。

开放式档案倡议对象重用和交换 (OAI-ORE) 定义了用于描述和交换 Web 资源聚合的标准。这些聚合有时被称为复合数字对象,可以结合来自多个媒体类型的分布式资源,包括文本、图像、数据和视频。在我们日常使用的 Web 上,URI 主要用于标识 Web 文档。它们是标识符,当取消引用时,会返回一个可供人阅读的表示。但是,在语义网上,URI 被引入以标识所谓的现实世界实体,例如人或汽车,甚至抽象实体,例如想法或类别。由于这些东西不是文档,因此它们没有表示来指示这些资源的含义。链接数据努力 [链接数据教程:http://www.openarchives.org/ore/1.0/primer.html#ref-linked-data] 描述了一种尽管这些资源没有表示但仍能获取有关这些资源的信息的方法。ORE 基于 4 个关键概念(类别):• 对象:正在描述的书籍/绘画/程序 • 聚合:组织来自特定提供者(博物馆、档案馆、图书馆)的对象信息,它表达了它描述的哪个聚合资源(ore:describes 关系),并列出了聚合的一部分的资源(ore:aggregates 关系)。• 数字表示:对象的某种数字形式,具有 Web 地址 • 代理:对象的元数据记录 ORE 支持 RDF/XML、RDFa 和 Atom XML 中的资源映射序列化。可在以下位置获得更多信息:http://www.openarchives.org/ore/1.0/primer.html http://www.openarchives.org/ore/1.0/toc.html

谁使用什么

[编辑 | 编辑源代码]

请参阅 http://ckan.net/group/lld(图书馆数据集列表)

当前可用的元数据模式的成熟度或稳定性差异很大。许多模式是正在进行的项目工作的结果,或者是个别倡议的结果,它们将自己描述为原型而不是成熟的标准。越来越多的成熟机构正在为链接数据项目投入资源,从瑞典、匈牙利、德国、法国的国家图书馆、美国国会图书馆和英国图书馆到联合国粮食及农业组织,更不用说 OCLC。这些机构可以为图书馆链接数据随时间推移而构建提供稳定的基础。

英国/美国的每个主要图书馆都将使用 MARC21,许多欧洲图书馆也将使用。在德国,广泛使用的是 MAB2 和 Pica。这将用于记录创建、数据交换和内部存储。

英国图书馆数据模型

[编辑 | 编辑源代码]

http://www.bl.uk/bibliographic/pdfs/british_library_data_model_v1-00.pdf http://www.bl.uk/bibliographic/pdfs/britishlibrarytermsv1-00.pdf

@prefix xxx

定义可以从中提取类别和属性的本体

a owl:Ontology;

a => rdf:type - 'a' 是在 rdf 词汇表中定义的谓词(属性)
owl:Ontology - 对象在映射为 'owl' 的本体中定义

dct: created "2010-06-28"^^xsd:date;

dct:created 在 Dublin Core 术语中定义
xsd:date 是 XmlSchema

blt:PublicationEvent a rdfs:Class , owl:Class;

定义 rdf:type 类别的新对象(根据 rdfs 和 owl)

rdfs:label "Publication event"@en ;

根据 rdfs 对 'label' 的定义定义其标签

rdfs:comment "An event which is the publication of a resource."@en ;

定义注释

rdfs:subClassOf event:Event ;

是事件的子类(根据 'event' 定义)

rdfs:isDefinedBy blt: .

由 . 定义(blt - 英国图书馆术语本身)

创意共享

[编辑 | 编辑源代码]

创意共享元数据文件有两个主要部分:作品描述和许可描述。作品描述使用 Dublin Core 属性来提供有关作品的信息。有关更多信息,请参阅:http://creativecommons.org/technology/metadata/schema.rdf http://creativecommons.org/learn/technology/metadata/


欧洲数据模型 (EDM)

[编辑 | 编辑源代码]

http://pro.europeana.eu/edm-documentation

目标是

  1. 保留原始元数据 - 尽可能以原始模型的形式表达
  2. 同时允许互操作性 - 使用映射到更具互操作性的级别

要求:(1)区分“对象”(绘画、书籍、软件)和

  1. 数字表示
  2. 描述该对象的元数据(+ 可以有多个记录)

(2)支持由多个对象组成的对象 问题是,没有标准的方法来描述聚合的组成部分或边界,这就是 OAI-ORE 旨在提供的内容:==> 开放式档案倡议对象重用和交换 (OAI-ORE)

(3)基于现有的标准元数据格式和标准词汇格式 ==> 使用 RDF 模型指定的 Dublin Core 用于元数据表示 EDM 使用 DCMI 元数据术语 ==> 使用 RDF 模型指定的 SKOS 用于词汇表示 EDM 使用 SKOS

美国国会图书馆

[编辑 | 编辑源代码]

SKOS、MADS

  • 数字图书馆项目(美国国会图书馆)

AV-原型:音频和视频的数字保存使用 METS 和 MODS,重点关注元数据编目报告作为中间级描述


联合国教科文组织的 CDS/ISIS 图书馆软件

[编辑 | 编辑源代码]

通用通信格式 (CCF)


加州大学出版社

[编辑 | 编辑源代码]

使用 METS 和 MODS 为免费电子书


MusicAustralia

[编辑 | 编辑源代码]

MODS 作为澳大利亚国家图书馆和 ScreenSoundAustralia 之间的交换格式,允许与 MARC 数据保持一致


法国国家图书馆 (BnF)

[编辑 | 编辑源代码]

联系方式:Romain Wenz,负责 BnF 图书馆信息和数字部的数据.bnf.fr。目前仅处理文学/视觉资源,但很快将扩展目录到音乐作品。不同的目录使用不同的标准(MARC、DC 等):缺乏内部互操作性 - RDF 具有不同的本体

  • SKOS:用于概念
  • FOAF:用于人物
  • DC/RDA:用于资源

BnF 为每个在线资源提供公共 RDF 转储 -> /rdf.xml

蓬皮杜中心虚拟博物馆

[编辑 | 编辑源代码]

RDF


法国国家档案馆

[编辑 | 编辑源代码]

联系方式:Claire Sibille,法国文化和传播部法国国家档案馆部档案处理和信息化办公室负责人,法国国家档案馆发布的用于当地档案索引的 Thesaurus W

  • EAD(编码档案描述)
  • EAC-CPF(编码档案上下文 - 集体、人物、家庭)

历史:1. XML,2. Excel 表格,3. XML/SKOS(使用 ThManager) 今天

  • 每个术语的 URI 标识 + SKOS 定义的术语之间的关系
  • 这些术语之间的关系由 RDF 三元组定义
  • 该词典与 RAMEAU 和 DBpedia 进行了对齐

可以通过 HTML 或 RDF/XML 进行咨询 + 可以下载整个数据库到 rdf + 通过 SPARql 请求进行咨询 + 词典的 Web API

  • URI 可以根据上下文以不同的方式取消引用


佛罗伦萨国家中心图书馆

[编辑 | 编辑源代码]

维护意大利书籍的国家书目并开发 Nuovo Soggettario,一个国家通用词典,也以 SKOS 的形式在知识共享 2.5 许可下提供。声明“定义以链接数据形式在线发布已生成元数据的途径”,处于“第一个原型实验阶段”(联系方式:Giovanni Bergamin):http://thes.bncf.firenze.sbn.it/thes-dati.htm


SNAC:EAC-CPF

[编辑 | 编辑源代码]

LOCAH:EAC-CPF

[编辑 | 编辑源代码]

Archive Hub、COPAC 以及链接数据创建与其他数据库的链接(例如 BBC、OCLC、LCSH)..




[编辑 | 编辑源代码]

存在许多模型来描述元数据,某些模型使用特定工具(例如 bibtex),其他模型使用特定格式(例如 XML 和 C、JSON API 等)。

来自印第安纳州的 Jenn Riley 的这个链接可能是关于不同元数据标准的很好的起点http://www.dlib.indiana.edu/~jenlrile/metadatamap/seeingstandards.pdf

W3C LLD 报告

邮件列表:[email protected]

联系方式:Emmanuelle Bermès,W3C“图书馆链接数据”孵化组主席。

华夏公益教科书