ETD 指南/技术问题/ETD 的元数据模型
ETD 计划的目标之一是方便获取 TD。由于我们正在处理数字图书馆,因此我们隐含地处理图书馆。在图书馆目录上执行的操作之一是搜索和检索。这是访问图书馆项目的第一个步骤;第二步是使用(阅读,收听,查看等)项目。
为了在搜索和检索操作中提高效率,用户必须搜索一个项目已正确标识的目录,并使用良好的搜索功能。
本节介绍 ETD 的标识,这是其传播的重要一步。识别将通过使用元数据元素集来完成,该元素集被称为 TD 数字图书馆的元数据模型。
在讨论 ETD 的元数据模型之前,重要的是将一些想法引入讨论中。这些想法与稍后要考虑的模型的选择有关。这些模型必须丰富且通用,以包含不同性质的信息,并由来自世界各地的用户搜索。
很明显,元数据模型越丰富、越通用,捕获(收集和记录)信息到数字图书馆所需的时间和精力就越多。关于使用哪个模型的决定必须考虑到这一点。在某些情况下,可能需要采用最简单的模型,以使元数据捕获变得可行。本章后面将介绍都柏林核心元数据元素集。似乎它是用于 ETD 的最小识别的共识。
我们要思考的想法是
- 一个世界中的多种语言
- ETD 在世界各地阅读
- 元数据
- 内容和实例
- 内容、实例和元数据
- 内容、实例和语言
- 元数据模型和语言
- 元数据方案
- TD 元数据模型的专业化
- 结论 - ETD 的元数据模型
一个世界中的多种语言
我们的世界是一个非常多样化的语言场所。那些处理信息并参与国际项目的人都会说英语。这是他们用来交流、访问互联网、阅读技术文献等的语言。
同时,不仅存在许多其他语言,而且其中一些语言的母语使用者数量众多。世界前 100 种最常用的语言,当计算母语使用者时,可以在 http://www.sil.org/ethnologue/top100.html 中找到。按降序排列,前 10 名分别是汉语(普通话)、西班牙语、英语、孟加拉语、印地语、葡萄牙语、俄语、日语、德语(标准语)和汉语(吴语)。
如果只考虑其他 9 种语言,那么不难想象每年有多少文本被写出和出版。TD 也一样。以英语以外的语言出版的 TD 数量一定非常大。
ETD 在世界各地阅读
ETD 计划的目标和好处之一是方便获取 TD 中介绍的结果,无论读者身在何处,也不管论文是在哪里撰写的。
我们假设 ETD 数字图书馆将连接到互联网,以便可以与世界各地共享其内容,以确保实现此好处。
元数据
元数据是关于数据的数据,或者说是关于信息的信息。
元数据元素是用来描述数字图书馆项目的属性,就像用来编目传统图书馆项目的属性一样。
其中许多属性依赖于语言,例如标题、摘要、主题、关键词等。其他属性显然不依赖于语言,例如作者姓名、数字格式、文件字节数等。
由于某些元数据元素依赖于语言,而 TD 以多种语言编写,因此我们可以预期元数据很可能使用作品的语言。这会给搜索和检索活动带来问题,因为我们大多数人并不像我们希望的那样精通多种语言。
内容和实例
数字图书馆的项目可以在 2 个不同的级别上被识别;就像传统图书馆的项目一样。第一个级别是内容,它相当于传统图书馆的标题,第二个级别是实例,它相当于卷。
内容是数字图书馆项目的逻辑定义,它由一组属性识别。实例是内容或标题的物理实现。它是一个数字对象,也由一组属性识别。
使用内容和实例允许内容具有多个实例,无论是以不同的格式还是由于物理分区。这将导致内容和实例之间的一对多关系。
使用内容和实例还可以允许在分区而不是内容上执行访问控制。这使得数字图书馆在处理知识产权方面更加灵活。
因此,我们可以得出结论,有一些属性是特定于内容的,而另一些属性是特定于实例的。元数据模型必须包含两者。
内容、实例和元数据
有些元数据元素对所有内容都通用,例如标题、摘要、类型等,而另一些元素对所有实例都通用,例如电子格式、访问级别等。
另一方面,某些元数据元素特定于某些内容,例如翻译控制 - 原内容、翻译人员等,而另一些元素特定于某些实例,例如特殊设备、过期日期、远程位置等。
从这个评论中,我们可以看到元数据模型必须是通用的,以包含对所有内容和所有实例都通用的属性,以及特定的属性,以便适应数字图书馆项目的专业化。
内容、实例和语言
内容可能是依赖于语言的。内容的语言是它被写入、说出来或唱出来的语言。
其他语言可能与内容相关联 - 它是用其他语言编目的。可以用其他语言来描述以一种语言编写/说/唱的内容。这样,在每个要使用的语言中都有一个目录条目。
如果在所有语言中执行搜索,则使用多语言编目将在不同的语言中产生访问点。本主题将在部分 数据库和信息检索 中介绍。
元数据模型和语言
可以定义数字图书馆以容纳多种语言。一个好的选择至少应该是开发 TD 的国家的语言和英语。
如果是这种情况,元数据模型可以具有所有依赖于语言的属性,这些属性以数字图书馆要使用的每种语言编写,语言代码必须是数据库中主键的一部分。
不依赖于语言的属性在数据库中只有一种表示。
元数据方案 存在相当多的元数据方案。有些与图书馆项目严格相关,而另一些则范围更广,例如专门用于用于基于网络的教育的数字对象的那些。一些方案是众所周知的,应该提到
- DCMES - 都柏林核心元数据元素集
http://purl.org/dc/documents/rec-dces-19990702.htm
在 DCMI - 都柏林核心元数据倡议的责任下 http://www.purl.oclc.org/metadata/dublin_core/ http://purl.org/dc/ 此元数据元素集将在部分 编目:MARC、DC、RDF 中介绍 - IMS 项目 - 指令管理系统项目
http://www.imsproject.org/
IMS 项目定义的元数据元素集的目标是识别用于基于网络的教育的数字对象。它包含 DCMES 的所有元素以及更多。 - LOM - 美国电气电子工程师学会学习技术标准委员会的学习对象元数据 (LTSC/IEEE)
http://ltsc.ieee.org/doc/wg12/LOM_WD4.htm/
LTSC/IEEE (http://ltsc.ieee.org/) 定义的元数据元素集的目标是识别用于基于网络的教育的数字对象。它包含 DCMES 的所有元素以及更多。 - LoC - 美国国会图书馆的核心元数据元素
http://lcweb.loc.gov/standards/metadata.html
第二和第三个用于 WBE 正在进行时。由于它们包含 DCMES,因此与一般数字图书馆标识不存在冲突。
TD 元数据模型的专业化
除了通用元数据方案中包含的常用数据之外,还有一些与 TD 相关的信息类型可能对大学感兴趣。因此,考虑在传统元数据方案中添加额外的元数据元素可能会有用。附加元素可以分为 3 组
- 行政信息 - 部门、提交日期、接受日期、资金支持等。
- 学术信息 - 级别、导师、考试委员会等。
- 传统图书馆信息 - 大学、图书馆系统、控制号、索书号等。
这些可能有助于提供有关大学研究生课程的信息。
结论 - ETD 的元数据模型 为 ETD 数字图书馆定义元数据模型必须结合
- 为了实现访问目标(国家访问?国际访问?)而对 ETD 进行适当识别的需求
- 大学的行政需求
同时,预算或运营时间范围带来的限制必须考虑在内。在所需内容和可能内容之间存在平衡。关于这种平衡的一些评论已经提出
- 对于国际访问,除了原始语言外,必须使用英语。这意味着标题和摘要必须翻译,并且主题词、关键词等将是多语言目录,需要维护。
- 为了使 ETD 数字图书馆成为国际社会的一部分,必须满足 ETD 识别的最低要求。这意味着至少必须使用 DCMES。
- 为了让大学能够很好地控制知识产权,使用内容/实例概念允许在数字对象上建立访问规范。因此,一些对象可以公开,而另一些对象可能由于格式或知识内容而具有不同类型的限制。
- 在定义运营 ETD 程序的工作流时,必须注意元数据元素的捕获。如果非图书馆员参与该过程,则必须有一个良好的培训计划和一个仔细的审查过程,以便正确地编目属性。
元数据模型的选择非常重要,负责实施 ETD 程序的团队必须在做出决定之前研究各种可能性。必须满足最低标准。
下一节:编目:MARC、DC、RDF