跳转到内容

开放元数据手册/元数据元素

来自维基教科书,为开放世界提供开放书籍

元数据元素

[编辑 | 编辑源代码]

一般来说,元数据创建的第一步是定义社区模型 - 元数据将代表什么?这些可以是: (a) 资源 (书籍、文章) (b) 代理人 (作者、出版商) (c) 载体 (期刊、CD、在线) (d) 分类

目标不是识别出一组有限的元数据元素,而是选择一组核心元素,这些元素可以扩展,以便每个社区都可以与相关的利益社区进行交互。明确指定扩展机制也很重要。否则,人们将倾向于滥用元素,因为他们被困在不完全符合其需求的元素集中。我们特别建议使用元数据元素之间的一些关键关系(例如,更广义、更狭义)以及为元数据术语创建网络唯一标识,以及创建可以根据需要替换的独立词汇表列表。

在本节中,我们将确定发现、识别、定位和去除重复作品所需的關鍵元数据元素

  • 定义一组小的元数据选项(数据元素和序列化),这些选项可以被数据提供者使用/采用。
  • 允许数据的粒度差异,但提供许多数据提供者应该能够实现的最佳实践。

元素集应适应特定材料、业务流程和系统功能的要求。这应该针对每种类型的作品进行(让我们从文学作品开始)

O - 可选 MA - 适用时强制性,但可能合法缺失 M - 强制性 R - 可重复 NR - 不可重复

Jim Pitman 的评论:我认为我们应该对 M 采取非常轻的方式,只鼓励数据提供者提供他们拥有的所有信息,并尽可能地进行解析。我们需要为此提供一些结构,但不要太过繁重。粗略的未解析的书目参考比没有好。它们可以被代理人清理并匹配以增强元数据,而这些代理人并非最初发布数据的那些代理人。尤其是各种形式的实体提取(人员、地点、主题,...)都属于此类。

文学作品

[编辑 | 编辑源代码]
  1. 创建者(s) (至少一个) MA/R [考虑到有些书籍可能是匿名的]
  2. 标题 M/NR [有些书籍可能有多个标题(例如封面与内页;或者多种语言的标题)。但是区分一个主要标题是合理的。通常的图书馆惯例是使用主标题页上的标题。] - *这可以通过例如在 BibJSON 中将标题设为对象来实现,主要标题为其“文本”值,其他标题被指示为其他键的值。主要问题是标准化辅助标题键的约定。*
  3. 日期 MA/NR [可能有多个日期 - 版权日期、出版日期、重印日期。同样,选择一个“关键”日期是合理的;这通常是出版日期。但是,请注意,有些书籍*没有*日期,因此为 MA。] - *严格来说,每个日期都应该与书籍相关联。*
  4. 编辑(s) MA/R -- CG:在图书馆编目标准(ISBD 等)中,作者、编辑、合作者和译者等(人或组织)都被视为“责任说明”:因此,我不会在第一步就将编辑与作者分开。
  5. 出版商 O/R
  6. 出版地 O/R
  7. 页数 O/NR [识别大多数版本实际上并不需要,但有帮助。此外,许多“书籍”是多卷的或缺少页码,这使得页数不清或不精确。最后,如果书籍是数字化的,可能根本没有明确的页码概念。]
  8. 类型 [我们需要一个列表。例如,书目、百科全书,... ] O/R
  9. 标识符 MA/NR - 例如,ISBN [假设我们正在索引特定版本。可能与不同版本、版本关联了许多 ISBN。理想情况下,应该指明关系的性质。在实践中,仅仅拥有 ISBN 对于查找和去除重复数据非常有用。]、DOI 等
  10. 链接 - 例如,如果在线 MA/NR,则为 URL [许多目录包含带有 URL 的注释来解释它是什么(免费的?全文或摘录?等等)。不需要,但在模式中留出空间以供此类注释很好。] - *强烈建议提供文本锚点暗示关系或提供来自受控词汇的关联值*

Mathias Schindler 的评论:最小数据集应该是创建者*和*标题*和*以下至少一个:年份*或*ISBN*或*URL。任何其他字段都可以重新调整,但不是“最小值”。

书籍章节

[编辑 | 编辑源代码]
  1. 创建者(s) (至少一个) MA/R [考虑到有些书籍可能是匿名的]
  2. 章节标题 M/NR
  3. 书籍标题 M/NR [有些书籍可能有多个标题(例如封面与内页;或者多种语言的标题)。但是区分一个主要标题是合理的。通常的图书馆惯例是使用主标题页上的标题。] - *这可以通过例如在 BibJSON 中将标题设为对象来实现,主要标题为其“文本”值,其他标题被指示为其他键的值。主要问题是标准化辅助标题键的约定。*
  4. 书籍日期 M/NR [可能有多个日期 - 版权日期、出版日期、重印日期。同样,选择一个“关键”日期是合理的;这通常是出版日期。但是,请注意,有些书籍*没有*日期,因此为 MA。] - *严格来说,每个日期都应该与书籍相关联。*
  5. 编辑(s) MA/R
  6. 出版商 O/NR
  7. 出版地 O/NR
  8. 书籍页数 O/NR [这在处理章节时似乎不相关。识别大多数版本实际上并不需要,但有帮助。此外,许多“书籍”是多卷的或缺少页码,这使得页数不清或不精确。最后,如果书籍是数字化的,可能根本没有明确的页码概念。]
  9. 章节起始/结束页码 M/NR
  10. 类型 [ 需要?很难提供一个列表] O/R
  11. 标识符 MA/NR - 例如,ISBN [假设我们正在索引特定版本。可能与不同版本、版本关联了许多 ISBN。理想情况下,应该指明关系的性质。在实践中,仅仅拥有 ISBN 对于查找和去除重复数据非常有用。]、DOI 等
  12. 链接 - 例如,如果在线 MA/NR,则为 URL [许多目录包含带有 URL 的注释来解释它是什么(免费的?全文或摘录?等等)。不需要,但在模式中留出空间以供此类注释很好。] - *强烈建议提供文本锚点暗示关系或提供来自受控词汇的关联值*

期刊文章

[编辑 | 编辑源代码]
  1. 创建者(s) (至少一个) MA/R
  2. 标题 M/NR
  3. ISSN 或完整期刊名称 M (一个或另一个)/NR
  4. 年份 M
  5. 枚举 M/NR [例如,卷号、期号、起始页码/结束页码(视情况而定) - 如果没有其他期号可用,则用日期代替。最低要求不应该要求它们被解析,尽管应该强烈推荐。期刊文章的引用来自许多来源,例如参考书目,在那里它们没有被解析。即使这种引用也可能有用。]
  6. 类型 [可能需要一个列表。例如,研究、说明性、调查、评论、摘要、说明、...。此类分类有时由出版商和/或书目数据库提供] O/R
  7. 标识符 MA/R - 例如,如果可用,则为 DOI
  8. 链接 M/NR - 例如,如果在线?


在线文本

[编辑 | 编辑源代码]

(例如维基百科文章、arXiv 电子预印本、技术报告、工作论文)

  1. 创建者(s) (至少一个) MA/R
  2. 标题 M/R?
  3. URL M/NR?
  4. 访问日期 O
  5. 创建日期 O
  6. 最后更新日期 O
  7. 格式:html/pdf/etc. [我们需要一个简短的列表供选择] O
  8. 类型 [我们需要一个列表。例如,电子预印本、技术报告、百科全书条目、讣告、新闻报道、评论、摘要,... ] O
  9. 链接 [应该鼓励数据提供者将他们的数据匹配到其他提供者提供的目录中,例如,WorldCat、Open LIbrary,... 并且如果他们找到匹配项,则提供指向它的链接。这将极大地帮助去除文档/作品的重复数据。当然,这也可以由其他人完成,但如果数据提供者提供帮助,那就太好了。这通常由学术期刊的参考书目出版商完成。其他链接可能是指向评论、评论,... ]

增强访问

[编辑 | 编辑源代码]

(这将是诸如关键词、摘要、目录、指向相关资源的链接等内容) - 待定...

待讨论的问题

[编辑 | 编辑源代码]

1. 枚举:我们需要为卷号、期号等单独设置元素吗?这些是学术出版物参考文献的标准语言的一部分。这些数据元素的用例是什么?(注意,大约 10 年以前的任何文章或期刊都没有 DOI 或 SICIs。)用例(特别是在其他类型标识符缺失、损坏或不符合标准的情况下)将是 (a) 识别,(b) 重复数据删除,(c) 分层索引和显示,(d) 方便指示完整集合的整个范围(例如,完整的卷号列表)。

2. 资源标识符:一些标识符,如 DOI,是自包含的(例如,以 URI 格式)。许多并非如此。我们可能不想有数十个标识符字段,因此我们需要一种格式,以便数据可以放入单个标识符字段中,例如 pubMed 项目的 PMID:PMID:12345。我们需要一个推荐标识符列表以及如何输入它们 - 这样的列表可以而且应该很容易地得到 OKF 和 BKN 的支持,以及对规范形式(以帮助重复数据删除)和利用这些标识符的服务的推荐。ISBN 是书籍的最佳选择。它在 1970 年之后得到广泛使用,尽管一些地方出版物没有它。如果不可用,目录中通常使用国家书目标识符,例如美国国会图书馆目录标识符。

3. 实体标识符:我们希望容纳人员、地点和其他实体的标识符。应该提供此类 ID 的占位符。它们不是必需的。识别的人员的姓名应参照 VIAF 或区域权威文件记录,其优先级高于拼写建议。应优先考虑在诸如 CC0 等免费条款下公开可用的权威文件。

4. 创建者类型:同样,一个简短的列表(作者、编辑、审稿人……)。如果未知,默认可以是“创建者”。书籍章节“应该”要求列出书籍的编辑。

5. 书目数据的更新:我们需要了解更新将如何进行,然后才能讨论元数据本身的标识和版本控制。

6. 链接:对于每个链接,至少需要 url,最好还有文本和链接关系的指示。这些链接可以引用全文或相关作品 - 这是“关系”字段指定的工作。

7. 索引和显示:元数据将影响可能进行的索引类型,以及对特定索引、排序、显示的愿望应该告知元数据。例如,Jim 希望有一个视图显示:期刊/卷号/期号(可能是一个排序),这要求卷号和期号可排序(例如,数字,没有“v.”等)。因此,我们需要讨论我们需要的和我们可以合理预期得到的东西。另一个问题是字段索引 - 例如,能够在特定字段上进行搜索,而不仅仅是通用关键词索引。我们希望能够在哪些字段上进行搜索?

华夏公益教科书