跳转到内容

ETD 指南/技术问题/SGML\XML 概述

来自维基教科书,开放的书籍,开放的世界

SGML/XML 是一种多目标策略。“它允许图书馆员确保数字论文的持久性。现代硬件和冗余可以使电子论文或论文 (ETD) 的所有比特保持完整。但电子档案必须不断现代化,因为新的文档格式变得流行。” 由于图书馆员总是倾向于以十年为单位思考,因此像 TIFF、Postscript 或 PDF 这样的文档格式不符合他们的要求。如果 PDF 被另一个事实上的(行业,而非 ISO 类似)标准取代,保存数字文档将意味着转换数千个文档。XML 可以帮助克服这些困难。如果电子文档要达到“档案质量”,它应该从页面隐喻中解放出来。”

使用 SGML/XML 的第二个原因是它通过保留原始数据和基于内容的信息片段结构来确保文档的可重用性。保存数学和化学中的统计数据和公式可以使研究人员能够重用和重复模拟、计算和实验,直接从档案中获取所需数据。

第三,使用结构化信息允许在不同的上下文中重用相同的信息或文档,即,相同的数字论文可以用于制作在线或印刷版本,以及制作额外的信息产品,例如包含过去一个月内大学制作的所有论文摘要的每月会议记录,或引文索引。此外,论文可以显示在不同的媒体上,因此盲文阅读器或自动语音合成器可以用作后端机器。

使用标记来编码文档的另一个原因是,可以为档案用户提供更广泛、更有针对性的检索。随着大学图书馆越来越受到处理、转换、归档和提供电子出版物的问题的挑战,主要任务之一是在用户界面内提供新的检索质量。使用基于 SGML/XML 的出版概念可以在通过特定信息和知识管理分发科学内容方面实现新的质量。

SGML/XML 意味着什么?

可扩展标记语言 (XML) 是 Web 上结构化文档和数据的通用格式。当前的 W3C 建议是 XML 1.0,'98 年 2 月,命名空间,'99 年 1 月,以及关联样式表,'99 年 6 月,以及 XSLT/XPath,'99 年 11 月。(http://www.w3.org/XML)XML 的开发始于 1996 年,自 1998 年 2 月起成为 W3C (http://www.w3.org/) 标准,这可能让你怀疑这是一种相当不成熟的技术。但事实上,这项技术并不新鲜。

在 XML 之前,存在标准通用标记语言 (SGML),它是在 80 年代初期开发的,自 1986 年起成为 ISO 标准,并广泛用于大型文档项目。当然还有 HTML,它的开发始于 1990 年。XML 的设计者只是借鉴了 SGML 的最佳部分,并以 HTML 的经验为指导,创造出一种功能不亚于 SGML,但更规则、更容易使用的东西。而 SGML 主要用于技术文档,而 XML 则用于其他类型的数据,情况则相反。

“结构化数据”,如数学或化学公式、电子表格、地址簿、配置参数、金融交易、技术图纸等,通常使用布局程序的输出(如 Postscript 或 PDF)或将它们放入图形格式(如 gif、jpeg、png、vrml 等)放在 Web 上。产生这种数据的程序通常也会将它存储在磁盘上,为此它们可以使用二进制格式或文本格式。因此,如果有人想要查看数据,他通常需要生成它的程序。有了 XML,这些数据可以存储在文本格式中,这允许用户在没有原始程序的情况下阅读文件。XML 是一套规则、指南、约定,无论你叫它什么,用于为这种数据设计文本格式,以一种产生易于生成和读取(由计算机)的文件的方式。

可扩展标记语言 (XML) 是一种用于文档的标记或结构化语言,一种所谓的元语言,它独立于任何输出媒体定义文档结构化标记的规则。XML 是结构化通用标记语言 (SGML) 的“简化”版本,自 1986 年起成为 ISO 认证标准。在互联网出版领域,由于标准的复杂性和工具的高成本,它从未取得广泛成功。它只在某些领域流行,例如大型企业(波音、专利信息)的技术文档。SGML 和 XML 的主要理念是严格分离文档的内容、结构和布局。大多数 ETD 项目使用 SGML 标准(带有 Korregendum K 的 ISO 8879,于 1997 年 12 月 4 日发布)或万维网联盟 (W3C) XML 1.0 的定义(1998 年 2 月 10 日,修订于 2000 年 10 月 6 日)。所有这些项目的关键始终是文档类型定义 (DTD)。


下一节:SGML/XML 和其他标记语言

华夏公益教科书