La semaine passée, un serveur en RAID 5 sur 3 disques est tombé en panne. Évidemment, ce truc était vital pour ma société.
Ca a commencé pour une petite LED passée du vert a l’orange et par une alerte : disque 2 HS. J’ai changé le disque, (pas facile de trouver de l’ultra SCSI 320) mais le RAID 5, comme trop souvent, n’est pas remonté…
Pour les non initiés, le RAID 5, c’est pas 5 flics déguisés en Robocop, mais : Redundant Array of Independent Disks, ce qui signifie: «regroupement redondant de disques indépendants »
Le RAID 5, c’est donc un groupe de disques durs (3 ou plus), vu comme un seul par l’utilisateur, qui permet, grace a une redondance de données, de s’affranchir d’une panne de disque. En effet si un disque lâche, la machine continue comme si de rien n’était, vu qu’elle a toujours toutes les données.
On peut alors changer le disque sans même arrêter l’ordi (hot plug). Dès qu’elle a son nouveau disque tout neuf, la bête reconstruit son RAID (c’est a dire qu’elle répartit les données sur l’ensemble des disques), prête a supporter vaillamment une nouvelle défaillance. Magique non ? Sur le papier c’est beau, même très beau. Tellement beau que ça permet aux commerciaux de vendre un système d’une fiabilité absolue (donc cher). En effet, 2 disques en panne en même temps, ça n’arrive jamais mon bon monsieur…
Dans la pratique, il suffit qu’un des autres disques, sans être vraiment naze, présente quelques petites erreurs après la panne du premier, et on se retrouve avec une soupe de data totalement indémerdable. C’est en tout cas la théorie communément admise par la plupart des informaticiens.
Revenons a mon serveur. Il tourne donc sur 2 pattes au lieu de 3 et le remplacement du disque HS n’a rien résolu. Pour la petite PME dont je gère le parc info, c’est la cata. Ce serveur a 6 ans, il est donc considéré comme préhistorique par le prestataire fournissant le soft. Mais quasi neuf par mon boss. Bien sur, l’appli métier qui tourne dessus est également obsolète et n’est pas compatible avec la version actuelle de Windows Server. Pour revenir a une situation fonctionnelle, il faut donc remonter un serveur neuf sous Win2003 server (qui ne se fait plus), et installer l’appli dans l’ancienne version qui acceptera (ou pas) de reprendre les sauvegardes. Ensuite il faut migrer sur la nouvelle version puisque l’ancienne n’est plus supportée (donc payer la nouvelle licence) et enfin passer le tout sur Win 2008 Server (cher aussi). Délai d’environ un mois, sans compter les aléas. Le devis prévisionnel tourne autour de 15k€.
Avec la crise, le CA de la boite tombe en vrille depuis un an. Je préfère piquer ses croquettes a un pitt-bull que d’annoncer ce genre de nouvelle au big boss.
A force de chercher une solution, on m’indique une jeune société de récupération de donnée : DataWolf. Il se trouve que je connais un de ses membres fondateurs dont j’ai déjà eu l’occasion d’apprécier la technicité et la ténacité.
Après un contact téléphonique, il se déplace le jour même pour effectuer un premier diagnostique. Il s’avère qu’un 2eme disque présente des erreurs. Le RAID 5 avec 2 disques sur 3 HS est complètement naze… De plus, à la fin de mes essais de redémarrage a la poussette de ce foutu RAID, j’ai tenté un “initialise” qui, semble-t-il, équivaut a “format”. (oups…). L’homme de l’art, optimiste, propose de tenter de tout récupérer, estimant avoir de bonnes chances de succès. Vu le coût dérisoire de la tentative en cas d’échec, nous décidons de tenter l’opération.
Au final, DataWolf a fait un travail incroyable, réussissant a réparer un des disques HS, (tête de lecture dégradée), à retrouver tout les fichiers, réparer l’arborescence, puis le cloner. Avec le clone + le dernier bon disque, ils arrivent même à remonter le RAID. A ce stade il a fallu restaurer le secteur de démarrage de NTFS et les différentes tables d’allocation pour reconstruire la structure de fichiers qui avaient disparu. (Tous les fichiers en vrac dans le même répertoire ça fait peur !)
Cette étape réussie, la plupart des fichiers s’avèrent pourtant illisibles. Qu’à cela ne tienne. Les experts se retroussent les manches et finissent par identifier la cause (qui avait causé la dégradation du RAID) et réparer les fichiers avec succès.
Le bon vieux Win 2000 Server, forcément impacté, ne voulait toujours pas redémarrer et la base de registre restait corrompue malgré tous ces efforts.
Et là, une lueur dans l’obscurité. C’est a ce momment que que j’ai compris a quoi ça servait de cocher l’option “system state” de NTbackup. Grace a une copie de la ruche “SAM”, ils ont pu achever la restauration de la base de registre. Ouf !
Ne restait plus qu’à migrer tout ça en RAID1 (mirroring) sur des disques neufs et redémarrer le serveur avec son OS et toutes ses fonctions ! Yeeeessss !
Un vrai feuilleton, mieux que Dallas, que j’ai pu suivre heure par heure par mail grâce a des rapports précis. Au ciné les happy end me gonflent, mais dans la vrai vie, c’est cool. Grosse économie de temps et d’argent pour ma boite, et un succès de plus pour le service informatique, dont “on se demande parfois ce qu’ils foutent”. Bingo !
Après la remise en route du serveur, Datawolf était encore disponible pour des conseils, et du support. J’avais pas vu une qualité de service à ce niveau depuis au moins 15 ans. Ça mérite d’être signalé.
Avec ces mecs là en parachute, je crois que je vais arrêter de m’emmerder avec les sauvegardes sur bandes, bazarder tout le foutoir de K7 et continuer les sauvegardes sur NAS. En mirroring bien sur ! Car bien entendu, je ne veux plus jamais entendre parler de RAID5 !