跳转到内容

ETD 指南/技术问题/ETD 的元数据模型

来自维基教科书,开放书籍,开放世界

ETD 计划的目标之一是方便获取 TD。由于我们正在处理数字图书馆,因此我们隐含地处理图书馆。在图书馆目录上执行的操作之一是搜索和检索。这是访问图书馆项目的第一个步骤;第二步是使用(阅读,收听,查看等)项目。

为了在搜索和检索操作中提高效率,用户必须搜索一个项目已正确标识的目录,并使用良好的搜索功能。

本节介绍 ETD 的标识,这是其传播的重要一步。识别将通过使用元数据元素集来完成,该元素集被称为 TD 数字图书馆的元数据模型。

在讨论 ETD 的元数据模型之前,重要的是将一些想法引入讨论中。这些想法与稍后要考虑的模型的选择有关。这些模型必须丰富且通用,以包含不同性质的信息,并由来自世界各地的用户搜索。

很明显,元数据模型越丰富、越通用,捕获(收集和记录)信息到数字图书馆所需的时间和精力就越多。关于使用哪个模型的决定必须考虑到这一点。在某些情况下,可能需要采用最简单的模型,以使元数据捕获变得可行。本章后面将介绍都柏林核心元数据元素集。似乎它是用于 ETD 的最小识别的共识。

我们要思考的想法是

  • 一个世界中的多种语言
  • ETD 在世界各地阅读
  • 元数据
  • 内容和实例
  • 内容、实例和元数据
  • 内容、实例和语言
  • 元数据模型和语言
  • 元数据方案
  • TD 元数据模型的专业化
  • 结论 - ETD 的元数据模型

一个世界中的多种语言

我们的世界是一个非常多样化的语言场所。那些处理信息并参与国际项目的人都会说英语。这是他们用来交流、访问互联网、阅读技术文献等的语言。

同时,不仅存在许多其他语言,而且其中一些语言的母语使用者数量众多。世界前 100 种最常用的语言,当计算母语使用者时,可以在 http://www.sil.org/ethnologue/top100.html 中找到。按降序排列,前 10 名分别是汉语(普通话)、西班牙语、英语、孟加拉语、印地语、葡萄牙语、俄语、日语、德语(标准语)和汉语(吴语)。

如果只考虑其他 9 种语言,那么不难想象每年有多少文本被写出和出版。TD 也一样。以英语以外的语言出版的 TD 数量一定非常大。

ETD 在世界各地阅读

ETD 计划的目标和好处之一是方便获取 TD 中介绍的结果,无论读者身在何处,也不管论文是在哪里撰写的。

我们假设 ETD 数字图书馆将连接到互联网,以便可以与世界各地共享其内容,以确保实现此好处。

元数据

元数据是关于数据的数据,或者说是关于信息的信息。

元数据元素是用来描述数字图书馆项目的属性,就像用来编目传统图书馆项目的属性一样。

其中许多属性依赖于语言,例如标题、摘要、主题、关键词等。其他属性显然不依赖于语言,例如作者姓名、数字格式、文件字节数等。

由于某些元数据元素依赖于语言,而 TD 以多种语言编写,因此我们可以预期元数据很可能使用作品的语言。这会给搜索和检索活动带来问题,因为我们大多数人并不像我们希望的那样精通多种语言。

内容和实例

数字图书馆的项目可以在 2 个不同的级别上被识别;就像传统图书馆的项目一样。第一个级别是内容,它相当于传统图书馆的标题,第二个级别是实例,它相当于卷。

内容是数字图书馆项目的逻辑定义,它由一组属性识别。实例是内容或标题的物理实现。它是一个数字对象,也由一组属性识别。

使用内容和实例允许内容具有多个实例,无论是以不同的格式还是由于物理分区。这将导致内容和实例之间的一对多关系。

使用内容和实例还可以允许在分区而不是内容上执行访问控制。这使得数字图书馆在处理知识产权方面更加灵活。

因此,我们可以得出结论,有一些属性是特定于内容的,而另一些属性是特定于实例的。元数据模型必须包含两者。

内容、实例和元数据

有些元数据元素对所有内容都通用,例如标题、摘要、类型等,而另一些元素对所有实例都通用,例如电子格式、访问级别等。

另一方面,某些元数据元素特定于某些内容,例如翻译控制 - 原内容、翻译人员等,而另一些元素特定于某些实例,例如特殊设备、过期日期、远程位置等。

从这个评论中,我们可以看到元数据模型必须是通用的,以包含对所有内容和所有实例都通用的属性,以及特定的属性,以便适应数字图书馆项目的专业化。

内容、实例和语言

内容可能是依赖于语言的。内容的语言是它被写入、说出来或唱出来的语言。

其他语言可能与内容相关联 - 它是用其他语言编目的。可以用其他语言来描述以一种语言编写/说/唱的内容。这样,在每个要使用的语言中都有一个目录条目。

如果在所有语言中执行搜索,则使用多语言编目将在不同的语言中产生访问点。本主题将在部分 数据库和信息检索 中介绍。

元数据模型和语言

可以定义数字图书馆以容纳多种语言。一个好的选择至少应该是开发 TD 的国家的语言和英语。

如果是这种情况,元数据模型可以具有所有依赖于语言的属性,这些属性以数字图书馆要使用的每种语言编写,语言代码必须是数据库中主键的一部分。

不依赖于语言的属性在数据库中只有一种表示。

元数据方案 存在相当多的元数据方案。有些与图书馆项目严格相关,而另一些则范围更广,例如专门用于用于基于网络的教育的数字对象的那些。一些方案是众所周知的,应该提到

TD 元数据模型的专业化

除了通用元数据方案中包含的常用数据之外,还有一些与 TD 相关的信息类型可能对大学感兴趣。因此,考虑在传统元数据方案中添加额外的元数据元素可能会有用。附加元素可以分为 3 组

  • 行政信息 - 部门、提交日期、接受日期、资金支持等。
  • 学术信息 - 级别、导师、考试委员会等。
  • 传统图书馆信息 - 大学、图书馆系统、控制号、索书号等。

这些可能有助于提供有关大学研究生课程的信息。

结论 - ETD 的元数据模型 为 ETD 数字图书馆定义元数据模型必须结合

  • 为了实现访问目标(国家访问?国际访问?)而对 ETD 进行适当识别的需求
  • 大学的行政需求

同时,预算或运营时间范围带来的限制必须考虑在内。在所需内容和可能内容之间存在平衡。关于这种平衡的一些评论已经提出

  • 对于国际访问,除了原始语言外,必须使用英语。这意味着标题和摘要必须翻译,并且主题词、关键词等将是多语言目录,需要维护。
  • 为了使 ETD 数字图书馆成为国际社会的一部分,必须满足 ETD 识别的最低要求。这意味着至少必须使用 DCMES。
  • 为了让大学能够很好地控制知识产权,使用内容/实例概念允许在数字对象上建立访问规范。因此,一些对象可以公开,而另一些对象可能由于格式或知识内容而具有不同类型的限制。
  • 在定义运营 ETD 程序的工作流时,必须注意元数据元素的捕获。如果非图书馆员参与该过程,则必须有一个良好的培训计划和一个仔细的审查过程,以便正确地编目属性。

元数据模型的选择非常重要,负责实施 ETD 程序的团队必须在做出决定之前研究各种可能性。必须满足最低标准。


下一节:编目:MARC、DC、RDF

华夏公益教科书