ETD 指南/学生/准备转换为 SGML\XML

章节 SGML/XML 概述定义了 SGML 和 XML。

文档类型定义 (DTD) 的概念

文档类型定义 (DTD)，在 XML 的意义上，定义了用于生成结构类似文档的规则或模板。DTD 描述了一类文档的内容模型。它由以下部分组成：

**元素声明**，它是 DTD 的主要部分，也是结构定义。元素可以包含其他元素、字符或空。元素声明定义元素的名称和元素的逻辑内容（子元素）。（参见 [10]。）元素声明的重要组成部分是内容模型。在这里，文档架构师指示其他元素或字符数据的顺序和出现次数。
**符号声明**，定义了外部格式的符号，例如，用于图形（gif、jpeg）、数学（TeX、LaTeX）、3D 对象 (VRML) 和其他无法直接在 XML 中编码的格式。
**实体声明**，定义了字符集和字符的替换对象。从单个字符到更高数量的字符都可以用单个实体来定义。实体主要有两种类型：通用实体和参数实体。参数实体只允许在声明中使用，通常用于提高 DTD 的可读性或控制处理。通用实体在文档实例中使用；文档基于 DTD 创建。
**属性列表声明**，列出元素类型声明中定义的不同元素类型的属性及其值。

为了定义 DTD，需要一种特殊的语法，它不符合通常的 XML 语法，其中文档包含用“标签”括起来的元素：开始标签（例如 <author>）和结束标签（例如 </author>），生成类似这样的代码：<author> Joe Miller </author>

全球范围内使用电子学位论文的 DTD

目前可用的 XML 作者系统还没有得到广泛认可，导致不同的大学对 XML 文档采取了不同的策略。大多数这些项目开始于 1995 年至 1997 年之间，当时 XML 正在兴起，但还没有可用的工具或标准化 DTD。从今天的角度来看，这些项目的现状表明，为了实现标准化，需要重新思考和重新设计这些方法。

所有展示的 DTD 都基于类似的原则。一篇传统的学位论文（可以看作是专著）包含 3 个主要组成部分：一个可扩展的**标题页**，包含摘要、声明等；**学位论文主体**，包含文本、图片、音频、视频、表格等；以及**附录**，包含数据表、参考书目、致谢和其他内容。

以下 DTD 目前在不同的机构使用：

ETD-ML.DTD：弗吉尼亚理工大学和州立大学（弗吉尼亚理工大学）
DiML.DTD：德国在线学位论文项目
TDM.DTD：爱荷华大学
HutPubl.DTD：赫尔辛基理工大学
TEI-Light.DTD：安阿伯和里昂
ISOBook.DTD：奥斯陆大学
基于 TEI 的 DTD，扩展了自然科学内容：瑞典农业科学大学乌普萨拉

所有这些文档类型定义都是所谓的作者 DTD。这意味着它们主要用于支持创作和转换过程，而不是主要解决文档归档和保存问题。人们可能会问，为什么所有这些不同的 DTD 都得以保留。这主要是因为提到的大学的科学方向差异很大。里昂、奥斯陆和密歇根使用 TEI-Light.dtd，主要服务于艺术和人文领域的学习者。在支持强大的自然科学社区的大学，例如柏林、赫尔辛基或乌普萨拉，人们认识到使用 TEI.DTD 或 DocBook.DTD 的问题。通常，学位论文是一项积累性工作，例如在里昂或赫尔辛基。

准备转换

从文字处理形式转换为 SGML 或 XML 需要提前进行更多规划，使用不同的工具，并更广泛地学习有关文档处理的概念，而使用 PDF 则不需要。此外，最终结果是更容易保存、更可重用，并支持更强大、更有效的搜索和浏览方案的表示形式。但是，所有这些优势都必须权衡以下事实：了解这些问题的人更少，通常帮助使用的工具更昂贵、更不成熟，而且过程可能很复杂、困难且耗时。在 2000 年，有数万份 ETD 是通过扫描创建的（主要是由 UMI 创建，但也包括 MIT 和希腊国家文档中心等机构），数千份从文字处理器转换为 PDF，数百份是 SGML 或 XML，这表明学生准备 ETD 所需的相对工作量。每种形式。

简单的文字处理强调布局或所见即所得 (WYSIWYG) 编辑。强调文档的外观与关注逻辑结构截然不同，而标记方案最适合用于逻辑结构。从文字处理表示形式转向 XML 需要不同的思维方式，不同的方法。这个问题比从文字处理器导出生成 HTML 更加困难，因为不仅需要文档看起来像原始文档，而且还需要标记版本本身被正确地标记。

一些文字处理器已经扩展，以方便这种方法。微软为 Word 95 推出了 SGML Author for Word 作为附加软件包，新版本的 WordPerfect 可以根据标记方案导出内容。最终，大多数流行的文字处理器可能会导出到 XML。显然，生成的标记可以围绕文档节、标题、段落、列表、图形、表格、引用、脚注、超链接和其他明显的结构。此外，具有相同样式的区域也可以被标记。因此，要从文字处理轻松转换为标记方案，需要选择目标 DTD，然后一致地使用文档对象和样式，以便它们与标签之间存在清晰的映射关系。

从 LaTeX 转换稍微简单一些，因为 TeX 方法涉及使用可以映射到 XML 中标签的格式化命令。但是，LaTeX 不需要严格嵌套命令，因此可能不清楚在何处放置结束标签。此外，LaTeX 用户可能不会始终使用相同的序列来指定结构更改，这使得转换更加复杂。最后，LaTeX 对数学表达式的编码很难转换为数学标记方案，例如 MathML。

由于从文字处理方案转换为标记表示形式固有的复杂性，因此有必要包含步骤来检查和校正转换后的形式。解析器可以确保句法正确性，因此检测问题通常很简单。但是，为了确保语义正确性，可能需要手动检查。另一个测试将涉及呈现标记的文档，例如打印或 PDF 格式，并确保结果与原始文字处理版本产生的输出相匹配。无论如何，人工很可能需要用来校正转换错误，并假设学生足够了解流程和预期输出，才能熟练地完成这项工作。

参考书目

[1] http://lcweb.loc.gov/cds/lcsh.html#lcsh20

[2] http://www.bibliothek.uni-regensburg.de/rvko/rvko.php3

[3] http://purl.org/DC/

[4] http://www.w3.org/rdf

[5] Edward Fox：网络化数字学位论文图书馆，网络大事记，1999 年 8 月 12 日，http://helix.nature.com/webmatters/library/library.html

[6] NDLTD 标准委员会网站：http://www.ndltd.org/standards/

[7] http://dochost.rz.hu-berlin.de/epdiss/dtd-workshop/index.html

[8] Tad Lane，可缩放矢量图形 - 使用原始质量艺术品进行网络图形，载于：BITS，1999 年 11 月，http://lanl.gov/orgs/cic/cic6/bits/november_99/novbits1.html

[9] Neill Kipp：超越纸质范式：XML 和标记的案例；载于：第二部分“学位论文编写和设计指南”，学位论文来源手册，Weisser、Moxley 和 Fox 编辑，1999 年

[10] B. Travis，D. Waldt：SGML 实现指南，施普林格，柏林 - 海德堡 - 纽约，1995 年 [11] Ed Dumbill：XML 的现状，2000 年 6 月 16 日，载于 XML.com，http://www.xml.com/pub/2000/06/xmleurope/keynote.html

下一节：在 MS Word 中