选择正确的文件格式/是否有问题
如果你曾经使用过WordPerfect或WordStar,并且后来切换到其他编辑器,你可能已经熟悉了从某些类型的文件中检索自身信息的问题。也许你从一个操作系统切换到另一个操作系统,从Amiga切换到Windows,或者从Windows切换到Macintosh。简单地说,不同软件的文件格式经常会使你的信息以你多年后无法破译的方式被混淆。
如果你觉得这有点理论化,这里有一些故事来说明选择合适的信息格式的重要性。
英国游客
一名游客走进法国乡村一个美丽村庄里的一家非常棒的餐厅,用英语喃喃地说:“你们还在供应午餐吗?”没有人反应,于是他更大声地说:“你们有桌子可以让我吃饭吗?”有人认出了几个单词,意识到游客可能只会说英语,或者对尝试他的法语没有兴趣,其中一名员工去寻找可能能够帮助这位无知的游客的人。
经过长时间的等待,终于有人来了,翻译了他的请求,并为他找到了一个座位。游客拿到了菜单。“我看不懂!这是法语!什么叫Cervelles?”那位热心的翻译又被叫了回来,游客听他解释了整个菜单,终于可以点餐了。此时,我们可怜的游客已经很饿,也很沮丧,就像每个人在饥饿和沮丧的时候一样,他忘记了礼貌,脱口而出:“顺便说一下,我要用英语点餐,这样我才能确定我点的是什么——为了点餐的这份荣幸,我要求你向英国女王支付一小笔费用,以使用这种语言,你应该真正地像其他人一样学习使用它!”
在最后一句话被翻译回之前友好的店主后,厨房关门了,游客被赶走了。
就文件格式而言,这位游客出错的地方在于,虽然他对自己的使用格式很满意(不像下一个故事中的罗马官员),但他忘记了不同的人做事情的方式不同。在不同的情况下,他偏爱的格式(英语)不受支持。如果你的最喜欢的软件公司破产或停止支持你购买的软件,就会出现这种情况。曾经如此方便的文件随着时间的推移可能会变得毫无用处。
罗马官员
古罗马的一名官员,名叫盖鲁斯,雇用了一名名叫塔鲁纳的抄写员,塔鲁纳懂拉丁语,但只能用一种罕见的(未记录的)梵文方言书写。在塔鲁纳工作了几年后,盖鲁斯发现他实际上太慢了,而且一直丢失重要的文件。塔鲁纳被赶到街上,回到他的家人身边,蒙受耻辱。
第二天,这位官员雇用了一位备受赞誉的新助手,并派他到档案室。几分钟后,助手哭着出来了,解释说他只懂几个梵语单词,找不到任何关于使用方言的参考资料,而且永远无法理解这些文件。
他们疯狂地寻找塔鲁纳。当他们找到他时,他们要求他回来工作,但他明白了他们的问题。于是他笑着说:“我很乐意回来工作,你只需要把我的工资和假期加倍!”
用现代的术语来说,罗马官员出错的地方是使用了一种未公开的格式(一种未记录的梵文方言)来存储他的信息。他因此被这种格式所束缚,被迫不断购买软件(抄写员的服务),而且价格越来越高。他已经失去了对自身信息的控制!
在2003年为英国国家档案馆撰写的一份报告中,Adrian Brown总结了如何进行。
为创建电子记录选择的文件格式应该……不仅要由当前的明显需求决定,还要由长期的考虑因素决定。电子记录只有在其整个生命周期内都是可持续的,才能充分满足其目的。……因此,非常希望确定满足活动业务需求和以下可持续性标准的最小格式集,并将数据创建限制在这些格式范围内。 [1] (PDF)
对这一挑战,古腾堡计划采取的方法是严格的标准,即他们数字资料库中存储的15,000多本书籍都存储在纯ASCII文本中。
古腾堡计划尽可能地分发电子书的纯文本版本。其他格式,如HTML、XML、RTF等也受欢迎,但纯文本是“最低公分母”。我们强调包含纯文本,因为它的持久性:古腾堡计划包括许多20-30年前的文本文件。在那段时间里,数十种广泛使用的文件格式来来往往。文本可以在所有计算机上访问,也是防止未来过时的保险。 [2]
这意味着如果我们想要长期访问文档中的信息,就不能使用文字处理器吗?好吧,既是也不是。如果你像古腾堡计划那样想要长期文件可读性(拉丁文字语言),那么ASCII文本是最好的选择。这可能是财务记录和其他重要信息需要考虑的事情。如果你像许多人一样,拥有非文本信息,比如图像和声音,那么这篇文章就是你需要阅读的。无论哪种方式,你都可以避免很多常见的错误,这至少会让将来的迁移到下一代文件格式变得更容易。
现在让我们来看一个现实世界的场景。许多人使用Microsoft Windows操作系统和Microsoft Office套件,其中包括文档应用程序Microsoft Word(或简称MSWord)。MSWord的默认文件格式是DOC。那么DOC对于长期存储怎么样?
MS Word是一个专有程序,.doc文件扩展名是一种专有格式。这意味着软件的工作方式和存储信息的机制是保密的——只有微软知道它的所有工作原理。