ETD 指南/技术问题/ETD 的 DTD
(本节摘自 P. Potter、P. Strabala、D. Dobratz 和 M. Schulz 关于 ETD 的文章,该文章将在“互联网与高等教育”2001 年第 4 期发表)
XML 创作系统
目前可用的 XML 创作系统尚未得到广泛认可,这导致各大学在处理 XML 文档方面采取了不同的策略。大多数这些项目始于 1995 年至 1997 年之间,当时 XML 正在蓬勃发展,但工具或标准化 DTD 却寥寥无几。从今天的角度来看,这些项目表明需要重新思考和重新设计这些方法,以便实现标准化。
DTD
所有提出的 DTD 都建立在相似的原则之上。一篇典型的学位论文(可以看作是一部专著)包含 3 个主要部分:一个可扩展的标题页,其中包含摘要、声明等;论文正文,其中包含文本、图片、音频、视频、表格等;以及附录,其中包含数据表、参考文献、致谢等。
以下 DTD 目前在不同的机构使用中
- ETD-ML.DTD:弗吉尼亚理工学院和州立大学(弗吉尼亚理工大学)
- DiML.DTD:德国在线博士论文项目
- UIowa2K.DTD:爱荷华大学
- HutPubl.DTD:赫尔辛基理工大学
- TEI-Light.DTD:安阿伯和里昂
- ISOBook.DTD:奥斯陆大学
- 基于 TEI 的 DTD,扩展了自然科学:瑞典农业科学大学乌普萨拉
作者-DTD
所有这些文档类型定义都是所谓的作者-DTD。这意味着它们主要用于支持创作和转换过程,而并非主要针对文档归档和保存。人们可能会问,为什么这些不同的 DTD 能够流行起来。这主要是因为上述大学的科学方向差异很大。里昂、奥斯陆和密歇根使用 TEI-Light.dtd,主要服务于文科和人文学科的学生。在柏林、赫尔辛基或乌普萨拉等拥有强大自然科学社区的大学,使用 TEI.DTD 或 DocBook.DTD 会遇到一些问题。通常一篇学位论文是一项累积性工作,例如在里昂或赫尔辛基。
拉瓦尔大学与蒙特利尔大学合作,在 2001-2002 年期间对 ETD 的新 DTD 模型进行了研究。该 DTD 及其文档将发布在 http://www.theses.umontreal.ca 上。
用于多媒体内容的 DTD
“结构化数据”,如数学或化学公式、电子表格、地址簿、配置参数、金融交易、技术图纸等,通常使用 Postscript 或 PDF 等布局程序发布在 Web 上,或者将其转换为 gif、jpeg、png、vrml 等图形格式。生成这些数据的程序通常还会将其存储在磁盘上,使用二进制或文本格式。因此,如果有人想查看这些数据,他通常需要使用生成这些数据的程序。使用 XML,数据可以存储在文本格式中,这允许用户在没有原始程序的情况下读取文件。XML 可以被看作是一组规则、指南或约定,用于设计数据的文本格式,从而生成易于生成和读取(由计算机)的文件。除了较旧的标准 SGML 之外,还有一些新兴标准使用 XML 编码来克服 HTML 网页发布的常见缺点。以下部分概述了近年来建立的标准,或仍在进行中的标准,但已被广泛认可。
XML DTD 和 Schema
对于标准化的知识管理来说,各种各样的 XML DTD 和 Schema 似乎令人困惑。但是,仔细观察后,我们可以从另一个角度来看:每个科学学科都定义和使用自己的标准。以下文档类型定义可以大致分类为
- 使用语义标签来标记真实内容项的 Schema,例如 MathML 或 CML。
- 用于可视化和布局目的,以及控制浏览器同步的 Schema,例如 HTML、SVG(可缩放矢量图形)、SMIL(同步多媒体集成语言)。
- 主要用于与大型数据库交换数据的 Schema,例如 cXML(商业 XML)。
电子出版
在“电子出版”领域,这些发展为结构化科学信息提供了新的机会,不仅包括基于文本的信息,还包括所谓的主动内容和多媒体元素。这将整个领域提升到了一个新的信息处理或知识管理水平。各大学在电子出版方面的不同方法创造了一个非常异构的环境。以下表格显示了将所有这些不同的模型归纳到一个概念下以实现基于 XML 的有价值且可搜索的信息系统的难度。必须定义所有这些 DTD 之间的交叉映射,以便构建一个分布式检索引擎,能够在“全球范围内”搜索内部文档结构。不仅使用不同的 DTD,而且还使用不同的策略将常见的文本格式系统转换为 SGML 或 XML 中的高度结构化文档。
合作伙伴 | DTD | 转换为 SGML/XML | 从 SGML/XML 转换为 HTML、PDF |
---|---|---|---|
柏林洪堡大学 | DiML | Word 的 SGML-Author | Perl 脚本、DSSSL |
弗吉尼亚理工学院和州立大学 | ETD | SGML-Author | Perl 脚本 |
爱荷华大学 | Uiowa2K | Majix | CSS |
蒙特利尔大学/里昂第二大学 | TEI-Light | Omnimark rtf2sgml | XSL |
赫尔辛基理工大学 | HutPubl | FrameMaker+SGML | DSSSL、FrameMaker |
密歇根大学 | TEI-Light | Omnimark rtf2sgml | |
奥斯陆大学 | ISO-Book | Balise |
下一节:柏林 DTD 研讨会