最小化硬盘驱动器故障和数据丢失/检测即将发生的驱动器故障
操作系统工具,如 Windows 上的 chkdsk;以及 Linux 上的 fsck、smartctl 和 badblocks 可以定期使用,也许每三个月一次,以检查驱动器上使用的文件系统的完整性并尽可能修复错误。扫描的第三方工具也可用。除了例行扫描之外,如果在驱动器上操作文件时遇到问题,还必须立即运行扫描。此类问题的典型例子是移动文件时出现挂起或 CRC 错误。
诊断检查还可以包括 坏扇区 扫描。虽然对大型驱动器运行坏扇区扫描可能需要几个小时到几天,具体取决于驱动器和使用的实用程序,但建议这样做。驱动器上存在多个或数量增加的坏扇区可能是驱动器健康状况不佳的迹象。可以更换此类驱动器,以避免进一步丢失数据。
可以使用各种 S.M.A.R.T. 工具 从驱动器查询 S.M.A.R.T. 可靠性数据。这些数据可以用作驱动器健康的估计。根据数据,如果软件报告驱动器健康状况低于可接受水平,则可以主动更换驱动器。
存在软件应用程序可以根据时间表自动监控 S.M.A.R.T. 数据。如果最小可靠性阈值被超过,应用程序可以提醒用户。与仅手动查询 S.M.A.R.T. 数据的应用程序相比,可能更喜欢此类应用程序。具有此功能的 Windows 免费软件应用程序包括 PassMark DiskCheckup 和 Acronis Drive Monitor。
也存在软件可以解释 S.M.A.R.T. 数据并将数值百分比分配给驱动器的健康状况。具有此功能的 Windows 免费软件应用程序包括 SpeedFan(当与它的在线分析功能一起使用时)和 Acronis Drive Monitor。
与温度数据一样,驱动器提供的 S.M.A.R.T. 数据可能由于各种原因而不可读。特别是,通过 USB 和 Firewire 外部连接的大多数驱动器无法读取 S.M.A.R.T. 数据。这是因为 USB 和 ATA 协议之间的协议桥似乎不支持 S.M.A.R.T. 数据。
虽然 S.M.A.R.T. 有多个参数,但其中一部分参数对故障概率有很大影响。这些参数是扫描错误、重新分配计数、离线重新分配计数和试用计数。这四个参数的临界阈值都是 1。
参数 | 达到参数的临界阈值 1 后,驱动器在 60 天内发生故障的可能性增加的次数。 |
---|---|
扫描错误 | 39* |
重新分配计数 | 14 |
离线重新分配计数 | 21 |
试用计数 | 16 |
*年轻驱动器中的扫描错误比旧驱动器更剧烈地增加了其发生故障的概率。虽然只有一个扫描错误的驱动器比没有扫描错误的驱动器更容易发生故障,但具有多个扫描错误的驱动器会更快发生故障。
不幸的是,S.M.A.R.T. 数据本身不可能用于开发有效的单个驱动器故障预测模型。这是因为很大一部分发生故障的驱动器根本没有 S.M.A.R.T. 错误。
操作系统记录系统事件。特别令人关注的是由磁盘或磁盘控制器触发的系统事件。只有记录为错误或警告的事件才值得关注,而那些仅用于信息目的而记录的事件则不值得关注。在 Windows 下,可以使用内置的 事件查看器 应用程序查看事件。在其他操作系统下,可能可以使用其他应用程序来查看事件日志。
可以监视系统事件日志中是否存在与磁盘相关的错误和警告。如果记录了任何此类事件,则可以检查它们以查看它们与哪个驱动器或设备相关。如果在短时间内多个驱动器突然记录了类似的事件,则问题更有可能出在公共控制器卡或主板组件上,而不是单个驱动器上。
根据事件及其频率,如果问题出在驱动器上,则可以运行诊断软件。如果事件继续发生,它可以作为驱动器即将发生故障的征兆。如果错误持续存在,则可以更换相关设备。