ETD 指南/技术问题/识别: URN、PURL、DOI
在互联网上分发的资源可以通过与其实际位置相对应的语法访问。这种语法由RFC 1738定义,称为统一资源定位符 (URL)。这种方式会造成某些问题,我们经常需要面对。谁没有遇到过著名的 HTTP 错误 404 未找到,它表明服务器无法找到请求的资源的位置?这并不意味着资源不再服务器上,因为它可能只是被移动到另一个位置。当资源被移动到另一个位置时,URL 无法自动更新,因此我们经常会遇到那个著名的 HTTP 错误。
虽然 URL 标识资源的地址,但统一资源名称 (URN) 标识实际的资源,即信息单元,就像 ISBN 对书籍一样。为了进行比较,URL 相当于用户的邮政地址,而 URN 相当于用户的社会保险号或社会安全号。因此,URN 附加到资源,而不是物理地址。通过知道这个标识符,即使资源的物理地址发生变化,也可以找到这个资源。URN 确保机构承诺维护对互联网上资源的访问。
在蒙特利尔大学于 1999-2000 年进行的数字论文试点项目框架内,我们实施了一个基于 CNRI 提出的模型生成 URN 的系统。位于 CNRI 的全球服务器管理“命名机构”,这些机构指的是出版商编号。安装在论文分发站的本地服务器反过来包含一个数据库,它管理 URN 和 URL 之间的关联。所有这些都与 NetworkSolution 管理 DNS 的系统非常相似,DNS 规范了连接到互联网的计算机的 IP 地址,只是在我们的例子中,是文档被分配了地址,而不是计算机。
CNRI 提出的模型是 Handle 系统。该系统也是 DOI 基金会系统的基石。Handle 的构造分为两部分。URN 的前缀对应于出版商编号(蒙特利尔大学的出版商编号为 1012)。这个编号是唯一的,不能被任何其他组织使用。“子名称”可以在这个编号之后添加,以便将其细分为更精确的单元。此序列后跟一个斜杠 (“/”) 和一个自由选择的字母数字序列。因此,论文的 Handle 类型 URN 如下所示
hdl:1012.Theses/1999-Albert.Mathieu(1959)-[HTML]
我们选择论文答辩年份、作者姓名、出生日期和文件格式作为论文 URN 标识符的组成要素。请注意,必须先下载 CNRI 的插件才能使用 Handle 系统。该系统具有与RFC 1737关于规范 URN 系统框架的要求基本一致的优点。然而,它的应用是繁琐的,因为绝对需要插件才能解析链接。在对 CNRI 系统进行实验后,蒙特利尔大学打算在我们的正在进行的电子论文项目中使用另一个系统。
另一个有趣的途径是由 OCLC 创建的 PURL 系统。我们要注意,与 URN 使用的其他规范或应用相反,附加到 PURL 的文档可以修改。PURL 系统在很大程度上遵循与 Handle 系统相同的原理,只是 URN 是使用 URL 地址解析的。此解决方案的优点是不需要使用插件。实际上,PURL 是一种 URL。PURL 并不直接指向互联网资源,而是指向一个中间解析服务。该服务将 PURL 与活动 URL 关联,然后将其提供给客户端。然后,客户端通常会提供对资源的访问。可以在中间服务(如 OCLC 的服务)中注册 PURL,或者在自己的服务器上安装该服务。
参考文献
- http://www.handle.net/
- http://www.doi.org/
- http://www.purl.org/
- http://purl.oclc.org/OCLC/PURL/INET96
- http://purl.oclc.org/OCLC/PURL/FAQ
- http://purl.oclc.org/
下一节: ETD 的元数据模型