硬盘修复(跳出硬盘认识的误区)

本文分四期连载于《存储在线》,原作者高朋。相应链接分别为:。(网上很多转载,但都没注明出处,而且有删减。本篇为原文转载+格式修正)


高朋读大学时是学习经济管理专业,在1994年大学毕业以后在某学院从事教育工作。在读大学期间是没有学习什么计算机知识的,虽然知道计算机知识很 有用,但苦于没有条件学习。在1995年,偶然在同事那里见到一个陌生的物件,好奇地问那是什么,朋友答:“这是电脑用的硬盘!” 这就是高朋第一次认识硬盘的经过。

几年下来,单位的电脑越来越多,电脑问题也随之多起来,高朋便有机会研究PC的维护。在维护过程中,由于硬盘出问题是较多的,尤其是出坏道的情况更 是令人。于是,高朋查遍图书馆、新华书店的计算机类图书,研究坏道修复的方法。令人失望的是,各种书刊上所说的方法大同小异(怀疑有传抄之嫌),不仅用处 不大,而且严重误导读者。

多年来一直误导着高朋的几个常识性问题是:

  1. 硬盘逻辑坏道可以修复,而物理坏道不可修复。实际情况是,坏道并不分为逻辑坏道和物理坏道,不知道谁发明这两个概念,反正厂家提供的技术资料中都没有这样的概念,倒是分为按逻辑地址记录的坏扇区和按物理地址记录的坏扇区。
  2. 硬盘出厂时没有坏道,用户发现坏道就意味着硬盘进入危险状态。实际情况是,每个硬盘出厂前都记录有一定数量的坏道,有些数量甚至达到数千上万个坏扇区,相比之下,用户发现一两个坏道算多大危险?
  3. 硬盘不认盘就没救,0磁道坏可以用分区方法来解决。实际情况是,有相当部分不认的硬盘也可以修好,而0磁道坏时很难分区。

如此误导,如不是自己搜集研究外文资料并长期实践,说不准还长期拿来作信条呢。 在国外有许多的专业的硬盘维修论坛,在那里你可以发现有一些国家的硬盘维修技术达到了很高水准。我敢肯定,他们的一些技术会令众多硬盘厂家头痛不已。和世 界上众多专业硬盘修理高手交流,使高朋受益菲浅。

这三年来,高朋辞去教师工作,专门从事硬盘修复工作,经手修复的硬盘已超过万个。总结起来,高朋的技术来源有三方面:

  1. 搜集国外技术资料与国外专业人士交流;
  2. 购买专业工具软件(有同步技术更新支持);
  3. 自己的实践经验。

很遗憾,我没有找到教我修复硬盘的老师,也不认为哪本教科书对我修硬盘有太大帮助。

目前在中国没有专业的讨论硬盘修复的论坛,也没有太多的中文技术资料,也没发现有强劲修复功能的商用软件,却有众多正在从事及有志从事硬盘修复的人士。高朋此举希望能起抛砖引玉的作用,将存储在线社区建设成最受国内硬盘修复行业人士欢迎的论坛。

硬盘修复人士需要弄明白的几个基本概念

在研究硬盘修复和使用专业软件修复硬盘的过程中,必将涉及到一些基本的概念。在这里,高朋根据自己的研究和实践经验,试图总结并解释一些与“硬盘缺陷”相关的概念,与众位读者交流。

Bad sector(坏扇区)

在硬盘中无法被正常访问或不能被正确读写的扇区都称为 bad sector。一个扇区能存储 512 bytes 的数据,如果在某个扇区中有任何一个字节不能被正确读写,则这个扇区为 bad sector。除了存储 512 bytes 外,每个扇区还有数十个 bytes 信息,包括标识(ID)、校验值和其它信息。这些信息任何一个字节出 错都会导致该扇区变“Bad”。例如,在低级格式化的过程中每个扇区都分配有一个编号,写在 I D中。如果ID部分出错就会导致这个扇区无法被访问到, 则这个扇区属于 bad sector。有一些 bad sector 能够通过低级格式化重写这些信息来纠正。

Bad cluster(坏簇)

在用户对硬盘分区并进行高级格式化后,每个区都会建立文件分配表(File Allocation Table,FAT)。FAT 中记录有该区内所有 cluster(簇)的使用情况和相互的链接关系。如果在高级格式化(或工具软件的扫描)过程中发现 某个 cluster 使用的扇区包括有坏扇区,则在 FAT 中记录该 cluster 为 bad cluster,并在以后存放文件时不再使用该 cluster,以避免数据丢失。有时病毒或恶意软件也可能在 FAT 中将无坏扇区的正 常 cluster 标记为 bad cluster,导致正常 cluster 不能被使用。 这里需要强调的是,每个 cluster 包括若干个扇区,只要其中存在一个坏扇区,则整个cluster中的其余扇区都一起不再被使用.

Defect(缺陷)

在硬盘内部中所有存在缺陷的部分都被称为 defect。 如果某个磁头状态不好,则这个磁头为 defect head。 如果盘面上某个 track(磁道)不能被正常访问,则这 track 为 defect track。如果某个扇区不能被正常访问或不能正确记录数据,则该扇区也称为 defect sector。可以认为 bad sector 等同于 defect sector。从总的来说,某个硬盘只要有一部分存在缺陷,就称这个硬盘为 defect hard disk。

P-list(永久缺陷表)

现在的硬盘密度越来越高,单张盘片上存储的数据量超过 40G bytes。硬盘厂家在生产盘片过程极其精密,但也极难做到 100% 的完美,硬盘盘面上或多或少存在一些缺陷。厂家在硬盘出厂前把所有的硬盘都进行低级格式化,在低级格式化过程中将自动找出所有 defect track 和 defect sector,记录在 P-list 中。并且在对所有磁道和扇区的编号过程中,将 skip(跳过)这些缺陷部分,让用户永远不能用到它们。这样,用户在分区、格式化、检查刚购买的新硬盘时,很难发现有问题。一般的硬盘都在 P-list 中记录有一定数量的 defect,少则数百,多则数以万计。如果是 SCSI 硬盘的话可以找到多种通用软件查看到 P-list,因为各种牌子的 SCSI 硬盘使用兼容的 SCSI 指令集。而不同牌子不同型号的 IDE 硬盘,使用各自不同的指令集,想查看其 P-list 要用针对性的专业软件。

G-list(增长缺陷表)

用户在使用硬盘过程中,有可能会发现一些新的 defect sector。 按“三包”规定,只要出现一个 defect sector,商家就应该为用户换或修。现在大容量的硬盘出现一个 defect sector 概率实在很大,这样的话硬盘商家就要为售后服务忙碌不已了。于是,硬盘厂商设计了一个自动修复机制,叫做 Automatic Reallcation。有大多数型号的硬盘都有这样的功能:在对硬盘的读写过程中,如果发现一个 defect sector,则自动分配一个备用扇区替换该扇区,并将该扇区及其替换情况记录在 G-list 中。这样一来,少量的 defect sector 对用户的使用没有太大的影响。

也有一些硬盘自动修复机制的激发条件要严格一些,需要用某些软件来判断 defect sector,并通过某个端口(据说是 50h)调用自动修复机制。比如常用的 Lformat,ADM,DM 中的 Zero fill,Norton 中的 Wipeinfo 和校正工具,西数工具包中的 wddiag,IBM 的 DFT 中的 Erase 等。这些工具之所以能在运行过后消除了一些“坏道”,很重要的原因就在这 Automatic Reallcation(当然还有其它原因),而不能简单地概括这些“坏道”是什么“逻辑坏道”或“假坏道”。 如果哪位被误导中毒太深的读者不相信这个事实,等他找到能查看 G-list 的专业工具后就知道,这些工具运行过后,G-list 将会增加多少记录!“逻辑坏道”或“假坏道”有必要记录在 G-list 中并用其它扇区替换么?

当然,G-list 的记录不会无限制,所有的硬盘都会限定在一定数量范围内。如火球系列限度是 500,美钻二代的限度是 636,西数 BB 的限度是 508,等等。超过限度,Automatic Reallcation 就不能再起作用。这就是为何少量的“坏道”可以通过上述工具修复(有人就概括为:“逻辑坏道”可以修复),而坏道多了不能通过这些工具修复(又有人概括 为:“物理坏道”不可以修复)。

Bad track(坏道)

这个概念源于十多年前小容量硬盘(100M 以下),当时的硬盘在外壳上都贴有一张小表格,上面列出该硬盘中有缺陷的磁道位置(新硬盘也有)。在对这个硬盘进行低级格式化时(如用ADM或DM 5.0等工具,或主板中的低格工具),需要填入这些 bad track 的位置,以便在低格过程中跳过这些磁道。现在的大容量硬盘在结构上与那些小容量硬盘相差极大,这个概念用在大容量硬盘上有点牵强。

读者们还可能发现国内很多刊物和网上文章中还有这么几个概念:物理坏道,逻辑坏道,真坏道,假坏道,硬坏道,软坏道等。高朋在国外的硬盘技术资料中 没有找到对应的英文概念,也许是中国人自己概括的吧?既然有那么多的人能接受这些概念,也许某些专家能作出一些的合理解释。 高朋不习惯使用这些概念,不想对它们作牵强的解释,读者们看看是谁说的就去问谁吧。

深入了解硬盘参数

正常情况下,硬盘在接通电源之后,都要进行“初始化”过程(也可以称为“自检”)。这时,会发出一阵子自检声音,这些声音长短和规律视不同牌子硬盘 而各不一样,但同型号的正常硬盘的自检声音是一样的。 有经验的人都知道,这些自检声音是由于硬盘内部的磁头寻道及归位动作而发出的。为什么硬盘刚通电就需要执行这么多动作呢?简单地说,是硬盘在读取的记录在 盘片中的初始化参数。

一般熟悉硬盘的人都知道,硬盘有一系列基本参数,包括:牌子、型号、容量、柱面数、磁头数、每磁道扇区数、系列号、缓存大小、转速、 S.M.A.R.T 值等。其中一部分参数就写在硬盘的标签上,有些则要通过软件才能测出来。但是,高朋告诉你,这些参数仅仅是初始化参数的一小部分,盘片中记录的初始化参数 有数十甚至数百个!硬盘的 CPU 在通电后自动寻找 BIOS 中的启动程序,然后根据启动程序的要求,依次在盘片中指定的位置读取相应的参数。如果某一项重要参数找不到或出错,启动程序无法完成启动过程,硬盘就进入 保护模式。在保护模式下,用户可能看不到硬盘的型号与容量等参数,或者无法进入任何读写操作。近来有些系列的硬盘就是这个原因而出现类似的通病, 如:FUJITSU MPG 系列自检声正常却不认盘,MAXTOR 美钻系列认不出正确型号及自检后停转,WD BB EB 系列能正常认盘却拒绝读写操作等。

不同牌子不同型号的硬盘有不同的初始化参数集,以较熟悉的 Fujitsu 硬盘为例,高朋简要地讲解其中一部分参数,以便读者理解内部初始化参数的原理。

通过专用的程序控制硬盘的 CPU,根据 BIOS 程序的需要,依次读出初始化参数集,按模块分别存放为 69 个不同的文件,文件名也与 BIOS 程序中调用到的参数名称一致。其中部分参数模块的简要说明如下:

DM硬盘内部的基本管理程序

  • PL 永久缺陷表
  • TS 缺陷磁道表
  • HS 实际物理磁头数及排列顺序
  • SM 最高级加密状态及密码
  • SU 用户级加密状态及密码
  • CI 硬件信息,包括所用的CPU型号,BIOS版本,磁头种类,磁盘碟片种类等
  • FI 生产厂家信息
  • WE 写错误记录表
  • RE 读错误记录表
  • SI 容量设定,指定允许用户使用的最大容量(MAX LBA),转换为外部逻辑磁头数(一般为16)和逻辑每磁道扇区数(一般为 63)
  • ZP 区域分配信息,将每面盘片划分为十五个区域,各个区域上分配的不同的扇区数量,从而计算出最大的物理容量。

这些参数一般存放在普通用户访问不到的位置,有些是在物理零磁道以前,可以认为是在负磁道的位置。可能每个参数占用一个模块,也可能几个参数占用同一模块。模块大小不一样,有些模块才一个字节,有些则达到 64K 字节。这些参数并不是连续存放的,而是各有各的固定位置。

读出内部初始化参数表后,就可以分析出每个模块是否处于正常状态。当然,也可以修正这些参数,重新写回盘片中指定的位置。这样,就可以把一些因为参数错乱而无法正常使用的硬盘“修复”回正常状态。

如果读者有兴趣进一步研究,不妨将硬盘电路板上的ROM芯片取下,用写码机读出其中的BIOS程序,可以在程序段中找到以上所列出的参数名称。

硬盘修复之低级格式化

熟悉硬盘的人都知道,在必要的时候需要对硬盘做“低级格式化”(下面简称“低格”)。进行低格所使用的工具也有多种:有用厂家专用设备做的低格,有 用厂家提供的软件工具做的低格,有用DM工具做的低格,有用主板BIOS中的工具做的低格,有用Debug工具做的低格,还有用专业软件做低格……

不同的工具所做的低格对硬盘的作用各不一样。有些人觉得低格可以修复一部分硬盘,有些人则觉得低格十分危险,会严重损害硬盘。高朋用过多种低格工具,认为低格是修复硬盘的一个有效手段。下面总结一些关于低格的看法,与广大网友交流。

大家关心的一个问题:“低格过程到底对硬盘进行了什么操作?”实践表明低格过程有可能进行下列几项工作,不同的硬盘的低格过程相差很大,不同的软件的低格过程也相差很大。

A. 对扇区清零和重写校验值

低格过程中将每个扇区的所有字节全部置零,并将每个扇区的校验值也写回初始值,这样可以将部分缺陷纠正过来。譬如,由于扇区数据与该扇区的校验值不 对应,通常就被报告为校验错误(ECC Error)。如果并非由于磁介质损伤,清零后就很有可能将扇区数据与该扇区的校验值重新对应起来,而达到“修复”该扇区的功效。这是每种低格工具和每种 硬盘的低格过程最基本的操作内容,同时这也是为什么通过低格能“修复大量坏道”的基本原因。另外,DM 中的 Zero Fill(清零)操作与 IBM DFT 工具中的 Erase 操作,也有同样的功效。

B. 对扇区的标识信息重写

在多年以前使用的老式硬盘(如采用 ST506 接口的硬盘),需要在低格过程中重写每个扇区的标识(ID)信息和某些保留磁道的其他一些信息,当时低格工具都必须有这样的功能。但现在的硬盘结构已经大 不一样,如果再使用多年前的工具来做低格会导致许多令人痛苦的意外。难怪经常有人在痛苦地高呼:“危险!切勿低格硬盘!我的硬盘已经毁于低格!”

C. 对扇区进行读写检查,并尝试替换缺陷扇区

有些低格工具会对每个扇区进行读写检查,如果发现在读过程或写过程出错,就认为该扇区为缺陷扇区。然后,调用通用的自动替换扇区(Automatic reallocation sector)指令,尝试对该扇区进行替换,也可以达到“修复”的功效。

D. 对所有物理扇区进行重新编号

编号的依据是 P-list 中的记录及区段分配参数(该参数决定各个磁道划分的扇区数),经过编号后,每个扇区都分配到一个特定的标识信息(ID)。编号时,会自动跳过 P-list 中所记录的缺陷扇区,使用户无法访问到那些缺陷扇区(用户不必在乎永远用不到的地方的好坏)。如果这个过程半途而废,有可能导致部分甚至所有扇区被报告为 标识不对(Sector ID not found,IDNF)。要特别注意的是,这个编号过程是根据真正的物理参数来进行的,如果某些低格工具按逻辑参数(以 16 heads 63 sectors 为最典型)来进行低格,是不可能进行这样的操作。

E. 写磁道伺服信息,对所有磁道进行重新编号

有些硬盘允许将每个磁道的伺服信息重写,并给磁道重新赋予一个编号。编号依据 P-list 或 TS 记录来跳过缺陷磁道(defect track),使用户无法访问(即永远不必使用)这些缺陷磁道。这个操作也是根据真正的物理参数来进行。

F. 写状态参数,并修改特定参数

有些硬盘会有一个状态参数,记录着低格过程是否正常结束,如果不是正常结束低格,会导致整个硬盘拒绝读写操作,这个参数以富士通IDE硬盘和希捷SCSI硬盘为典型。有些硬盘还可能根据低格过程的记录改写某些参数。

下面我们来看看一些低格工具做了些什么操作:

  • DM 中的 Low level format:进行了 A 和 B 操作。速度较快,极少损坏硬盘,但修复效果不明显。
  • Lformat:进行了 A、B、C 操作。由于同时进行了读写检查,操作速度较慢,可以替换部分缺陷扇区。但其使用的是逻辑参数,所以不可能进行D、E 和 F 的操作。遇到 IDNF 错误或伺服错误时很难通过,半途会中断。
  • SCSI 卡中的低格工具:由于大部 SCSI 硬盘指令集通用,该工具可以对部分 SCSI 硬盘进行 A、B、C、D、F 操作,对一部分 SCSI 硬盘(如希捷)修复作用明显。遇到缺陷磁道无法通过。同时也由于自动替换功能,检查到的缺陷数量超过G-list限度时将半途结束,硬盘进入拒绝读写状 态。
  • 专业的低格工具:一般进行 A、B、D、E、F 操作。通常配合伺服测试功能(找出缺陷磁道记入 TS),介质测试功能(找出缺陷扇区记入 P-list),使用的是厂家设定的低格程序(通常存放在 BIOS 或某一个特定参数模块中),自动调用相关参数进行低格。一般不对缺陷扇区进行替换操作。低格完成后会将许多性能参数设定为刚出厂的状态。

在这里, 高朋顺便回答一些读者常重复问到的问题:

问:低格能不能修复硬盘?
答:合适的低格工具能在很大程度上修复硬盘缺陷。

问:低格会不会损伤硬盘?
答:正确的低格过程绝不会在物理上损伤硬盘。用不正确的低格工具则可能严重破坏硬盘的信息,而导致硬盘不能正常使用。

问:什么时候需要对硬盘进行低格?
答:在修改硬盘的某些参数后必须进行低格,如添加P-list记录或TS记录,调整区段参数,调整磁头排列等。另外, 每个用户都可以用适当低格工具修复硬盘缺陷,注意:必须是适当的低格工具。

问:什么样的低格工具才可以称为专业低格工具?
答:能调用特定型号的记录在硬盘内部的厂家低格程序,并能调用到正确参数集对硬盘进行低格,这样的低格工具均可称为专业低格工具。

添加新评论