ETD 指南/学生/准备转换为 SGML\XML
章节 SGML/XML 概述 定义了 SGML 和 XML。
文档类型定义 (DTD),在 XML 的意义上,定义了用于生成结构类似文档的规则或模板。DTD 描述了一类文档的内容模型。它由以下部分组成:
- **元素声明**,它是 DTD 的主要部分,也是结构定义。元素可以包含其他元素、字符或空。元素声明定义元素的名称和元素的逻辑内容(子元素)。(参见 [10]。)元素声明的重要组成部分是内容模型。在这里,文档架构师指示其他元素或字符数据的顺序和出现次数。
- **符号声明**,定义了外部格式的符号,例如,用于图形(gif、jpeg)、数学(TeX、LaTeX)、3D 对象 (VRML) 和其他无法直接在 XML 中编码的格式。
- **实体声明**,定义了字符集和字符的替换对象。从单个字符到更高数量的字符都可以用单个实体来定义。实体主要有两种类型:通用实体和参数实体。参数实体只允许在声明中使用,通常用于提高 DTD 的可读性或控制处理。通用实体在文档实例中使用;文档基于 DTD 创建。
- **属性列表声明**,列出元素类型声明中定义的不同元素类型的属性及其值。
为了定义 DTD,需要一种特殊的语法,它不符合通常的 XML 语法,其中文档包含用“标签”括起来的元素:开始标签(例如 <author>)和结束标签(例如 </author>),生成类似这样的代码:<author> Joe Miller </author>
目前可用的 XML 作者系统还没有得到广泛认可,导致不同的大学对 XML 文档采取了不同的策略。大多数这些项目开始于 1995 年至 1997 年之间,当时 XML 正在兴起,但还没有可用的工具或标准化 DTD。从今天的角度来看,这些项目的现状表明,为了实现标准化,需要重新思考和重新设计这些方法。
所有展示的 DTD 都基于类似的原则。一篇传统的学位论文(可以看作是专著)包含 3 个主要组成部分:一个可扩展的**标题页**,包含摘要、声明等;**学位论文主体**,包含文本、图片、音频、视频、表格等;以及**附录**,包含数据表、参考书目、致谢和其他内容。
以下 DTD 目前在不同的机构使用:
- ETD-ML.DTD:弗吉尼亚理工大学和州立大学(弗吉尼亚理工大学)
- DiML.DTD:德国在线学位论文项目
- TDM.DTD:爱荷华大学
- HutPubl.DTD:赫尔辛基理工大学
- TEI-Light.DTD:安阿伯和里昂
- ISOBook.DTD:奥斯陆大学
- 基于 TEI 的 DTD,扩展了自然科学内容:瑞典农业科学大学乌普萨拉
所有这些文档类型定义都是所谓的作者 DTD。这意味着它们主要用于支持创作和转换过程,而不是主要解决文档归档和保存问题。人们可能会问,为什么所有这些不同的 DTD 都得以保留。这主要是因为提到的大学的科学方向差异很大。里昂、奥斯陆和密歇根使用 TEI-Light.dtd,主要服务于艺术和人文领域的学习者。在支持强大的自然科学社区的大学,例如柏林、赫尔辛基或乌普萨拉,人们认识到使用 TEI.DTD 或 DocBook.DTD 的问题。通常,学位论文是一项积累性工作,例如在里昂或赫尔辛基。
从文字处理形式转换为 SGML 或 XML 需要提前进行更多规划,使用不同的工具,并更广泛地学习有关文档处理的概念,而使用 PDF 则不需要。此外,最终结果是更容易保存、更可重用,并支持更强大、更有效的搜索和浏览方案的表示形式。但是,所有这些优势都必须权衡以下事实:了解这些问题的人更少,通常帮助使用的工具更昂贵、更不成熟,而且过程可能很复杂、困难且耗时。在 2000 年,有数万份 ETD 是通过扫描创建的(主要是由 UMI 创建,但也包括 MIT 和希腊国家文档中心等机构),数千份从文字处理器转换为 PDF,数百份是 SGML 或 XML,这表明学生准备 ETD 所需的相对工作量。每种形式。
简单的文字处理强调布局或所见即所得 (WYSIWYG) 编辑。强调文档的外观与关注逻辑结构截然不同,而标记方案最适合用于逻辑结构。从文字处理表示形式转向 XML 需要不同的思维方式,不同的方法。这个问题比从文字处理器导出生成 HTML 更加困难,因为不仅需要文档看起来像原始文档,而且还需要标记版本本身被正确地标记。
一些文字处理器已经扩展,以方便这种方法。微软为 Word 95 推出了 SGML Author for Word 作为附加软件包,新版本的 WordPerfect 可以根据标记方案导出内容。最终,大多数流行的文字处理器可能会导出到 XML。显然,生成的标记可以围绕文档节、标题、段落、列表、图形、表格、引用、脚注、超链接和其他明显的结构。此外,具有相同样式的区域也可以被标记。因此,要从文字处理轻松转换为标记方案,需要选择目标 DTD,然后一致地使用文档对象和样式,以便它们与标签之间存在清晰的映射关系。
从 LaTeX 转换稍微简单一些,因为 TeX 方法涉及使用可以映射到 XML 中标签的格式化命令。但是,LaTeX 不需要严格嵌套命令,因此可能不清楚在何处放置结束标签。此外,LaTeX 用户可能不会始终使用相同的序列来指定结构更改,这使得转换更加复杂。最后,LaTeX 对数学表达式的编码很难转换为数学标记方案,例如 MathML。
由于从文字处理方案转换为标记表示形式固有的复杂性,因此有必要包含步骤来检查和校正转换后的形式。解析器可以确保句法正确性,因此检测问题通常很简单。但是,为了确保语义正确性,可能需要手动检查。另一个测试将涉及呈现标记的文档,例如打印或 PDF 格式,并确保结果与原始文字处理版本产生的输出相匹配。无论如何,人工很可能需要用来校正转换错误,并假设学生足够了解流程和预期输出,才能熟练地完成这项工作。
参考书目
[1] http://lcweb.loc.gov/cds/lcsh.html#lcsh20
[2] http://www.bibliothek.uni-regensburg.de/rvko/rvko.php3
[5] Edward Fox:网络化数字学位论文图书馆,网络大事记,1999 年 8 月 12 日,http://helix.nature.com/webmatters/library/library.html
[6] NDLTD 标准委员会网站:http://www.ndltd.org/standards/
[7] http://dochost.rz.hu-berlin.de/epdiss/dtd-workshop/index.html
[8] Tad Lane,可缩放矢量图形 - 使用原始质量艺术品进行网络图形,载于:BITS,1999 年 11 月,http://lanl.gov/orgs/cic/cic6/bits/november_99/novbits1.html
[9] Neill Kipp:超越纸质范式:XML 和标记的案例;载于:第二部分“学位论文编写和设计指南”,学位论文来源手册,Weisser、Moxley 和 Fox 编辑,1999 年
[10] B. Travis,D. Waldt:SGML 实现指南,施普林格,柏林 - 海德堡 - 纽约,1995 年 [11] Ed Dumbill:XML 的现状,2000 年 6 月 16 日,载于 XML.com,http://www.xml.com/pub/2000/06/xmleurope/keynote.html
下一节:在 MS Word 中