跳转至内容

CAT 工具/DéjàVu X/从 Microsoft Word 导入

来自维基教科书,开放的书籍,开放的世界

4. 从 Microsoft Word 导入

添加: --Loek van Kooten 15:54, 2007 年 2 月 6 日 (UTC)

版本 7.0.284

系统: Windows XP SP2

描述: 从导入日语 Word 文档后,DVX 中的文本充斥着乱码。日语通常包含汉字 (kanji) 和罗马字母/阿拉伯数字。由于日语字体中的标准罗马字母/阿拉伯数字非常难看,大多数日语文本在 Word 中使用两种不同的字体(一种用于汉字,另一种用于罗马字母/阿拉伯数字),它们不断交替使用。每次交替都会导致乱码。

问题是,如果目标文本是西语,这些乱码毫无意义,因为目标文本不会包含汉字,因此使用一种字体(用于罗马字母/阿拉伯数字的字体)。也就是说,这些乱码在目标文本中是完全多余的,会减慢翻译过程并污染您的数据库。

因此,从日语翻译到西语时,DVX 应该忽略所有字体更改,而是选择标准字体(例如 Arial,或者甚至用户定义的字体)。自动识别日语源文本中使用的字体似乎非常复杂,因为“字体集”(由日语和罗马字体组成)可能被使用,并且“配对”不一致。

似乎许多乱码实际上并非由字体交替引起,而是由代码集交替引起,因为即使是强制使用一种字体的 Word 文档,在 DVX 中也会出现不一致的乱码。

{\loch\af25\hich\af25\dbch\af25 \loch\af25\hich\af25\dbch\f25 平成}{\loch\af25\hich\af25\dbch\af25 \hich\af25\dbch\af25\loch\f25 18年12月19日}

而不是仅仅 平成18年12月19日

乱码不一致:如果一个代码出现在 平成 (日语从汉字转换为阿拉伯数字)后面,您会期望在 年、月 或 日 后面出现类似的代码,但事实并非如此。重现:

解决方法


状态

Atril 尚未阅读。


其他用户的评论

华夏公益教科书