跳转到内容

ETD 指南/技术问题/DiTeD 和 DIENST

来自维基教科书,开放世界开放书籍

论文和学位论文传统上受到葡萄牙法律存款法的保护。如今,几乎所有的论文和学位论文都是使用文字处理器创建的,这证实了科学技术已成为数字化出版的先驱领域之一。

在这种情况下,论文和学位论文的存款成为一个理想的案例研究,专注于特定类型的场景。为此,葡萄牙国家图书馆推出了 **DiTeD-数字论文和学位论文** 项目,并由此衍生出一个同名软件包。

需求

论文和学位论文在注册和访问方面有特殊要求,因为其内容通常用于生成其他类型作品,例如书籍和论文,或者可能包含与例如专利相关的敏感材料。这要求管理系统具有功能,使作者能够声明对访问的特殊要求,这些要求必须进行注册并得到尊重。

大学在组织、文化和程序方面有着悠久的独立传统。因此,很快人们就意识到,在短期和中期内,无法与不同的行政服务机构达成任何形式的共同格式或标准程序的总体协议。因此,DiTeD 的主要目标是在互联网之上开发一个框架,将国家图书馆连接到当地大学图书馆,并支持论文和学位论文存款的完整数字循环。

架构

DIENST 技术 [3] 为此框架提供了一种解决方案,它提供了一套完善的核心服务。DIENST 还具有开放式架构,可以灵活使用,可以扩展其服务并构建新功能。该架构的基本实体如 UML - 统一建模语言中的类图所示,如图 1 所示。

diensts.jpg

主服务器

主元数据服务器提供集中式服务,包括系统中所有本地服务器成员的目录。每个系统中只能存在一台这样的服务器。

在 DiTeD 中,该服务器位于国家图书馆。它被重命名为主服务器,并且与为 DIENST 开发的原始版本有很大不同。原始服务器仅用于管理元数据,而现在需要管理论文或学位论文的内容,并支持其提交和存款的工作流程。

DIENST 标准服务器

DIENST 标准服务器是安装在大学图书馆的服务器。该服务器在 DiTeD 中进行了修改,并被重命名为本地服务器。以下核心模块组成它:

  • 存储库服务:这是存储文档的地方。它管理元数据结构和同一文档的多种内容格式,这些功能在 DiTeD 中得到了大幅扩展(以支持特定的元数据格式,以及将论文或学位论文识别为可能由多个文件组成)。还可以定义和管理同一服务器中的不同集合。
  • 索引服务:该服务负责索引元数据并响应查询。DiTeD 中进行了一些小的调整,以支持索引和查询中的变音符号,这是葡萄牙语写作中的一个要求。
  • 用户界面:该服务负责与用户的交互。它在 DiTeD 中进行了扩展,以支持灵活的多语言界面和使用 HTTP 的提交工作流程。

标识符

国家图书馆正在运行两台本地服务器。一台名为“存款服务器”,用于本地存储来自所有大学的已存款论文和学位论文(存款将包含一份副本,因此最终每篇论文或学位论文都将存在于两个地方,本地服务器和存款服务器)。第二台本地服务器被用作虚拟系统,供那些没有必要的技术资源或技能来维护自己服务器的大学图书馆使用。

在 DiTeD 中存款的每篇论文或学位论文都会自动获得一个 URN [4],该 URN 将由命名空间和解析服务进行注册和管理。这实际上是对 PURL - 永久 URL 概念的简单实现,它具有以下特殊属性:它通过返回原始本地服务器中的真实 URL 来解析任何 PURL,除非该 PURL 不再可用。在这种情况下,它通过返回其在存款服务器中的 URL 来解析它。该最终 DiTeD 架构的实体如图 2 所示。

URN 的前缀格式为 "HTTP://PURL.PT/DITED",而后缀由大学图书馆(“发布者”)的标识符和工作本身的特定标识符组成,该标识符在本地自动分配。

dited.jpg

工作流程

工作流程包含两个主要步骤:提交和存款。

提交

提交过程包含以下步骤:

交付:该过程从学生向本地服务器提交论文或学位论文开始。在此步骤中,学生填写元数据表格,记录书目信息和访问条件。所有这些信息都处于待处理状态,直到被检查。

验证:在第二步中,图书管理员检查提交的质量(在本地服务器上登录可以访问所有待处理的提交)。这项任务应该由当地图书管理员负责,但也可以远程负责,例如由国家图书馆的专业人员负责(在项目的第一阶段,这项任务将由国家图书馆负责,特别是在确保标准的一致性并测试和调整程序方面)。

注册:如果一切正确(元数据和内容),论文或学位论文将存储在本地存储库中,学生将收到确认。否则,将联系学生以解决任何问题,并且提交将保持待处理状态。

存款

存款是指将论文或学位论文以及其元数据从本地服务器复制到存款服务器。这将在以下步骤中完成:

新增内容:主服务器会定期联系本地服务器的存储库,以检查是否有新的提交。本地服务器会回复,提供新提交的标识符列表。

交付:对于每个新提交,主服务器会向本地服务器发送请求,要求将其存入存款服务器。由于该存款服务器也是本地服务器,因此该存款与正常的本地提交一样。

验证:国家图书馆的图书管理员会检查存款。这种双重检查非常重要,尤其是在项目的初期,以便重新评估程序并测试文件通过互联网的自动传输 - 这并不总是可靠的过程)。

注册:如果一切正确,论文或学位论文将存储在存款存储库中,最终的 URN(一个 PURL)将被分配,学生和当地图书管理员都会收到确认。元数据也将被重新用于生成用于国家目录的标准 UNIMARC 记录。如果检测到任何问题,将联系当地图书管理员,并且存款将保持待处理状态。

有人可能会争辩说,如果存款服务器实际上也是本地服务器,那么第一步将被免除,本地服务器可以在提交成功后自动执行交付。这可能是未来的优化,但目前,此额外步骤的原因是为了保持异步系统的要求,例如使主服务器能够更好地控制存款时间(例如,优先考虑夜间时间)。

元数据

DiTeD 使用国家图书馆定义并以 XML 编码的论文和学位论文的元数据结构。该结构包含有关作品和作者的描述性书目信息,以及有关指导教师和评审委员会成员、访问条件等信息。该元数据结构在安装时可配置,使软件可以灵活地在其他国家/地区使用,甚至用于其他出版类型。元数据也可以以其他格式访问和导出,例如 UNIMARC 和 Dublin Core。

多语言界面

DiTeD 的用户界面具有多语言功能,允许用户随时在可用语言之间切换。基本配置包括英语和葡萄牙语。

软件可用性

该软件由葡萄牙国家图书馆维护,并免费用于非商业用途。可以通过电子邮件 [email protected] 申请访问软件包。

参考文献

  1. <http://dited.bn.pt>
  2. <http://purl.org>
  3. <http://www.cs.cornell.edu/cdlrg/dienst/software/DienstSoftware.htm>
  4. Sollins, K; Masinter, L. (1994). 统一资源名称的功能要求。 RFC 1737.

下一节: ADT

华夏公益教科书