Le raid : ami ou ennemi ?

:hello: Bonjour à tous et à toutes et bienvenue sur ce sujet qui traite des pièges que peut receler le RAID.

Je ne vais pas détailler ce qu’est le RAID, je pars du principe que vous connaissez déjà au moins le principe général.

Si besoin, je vous renvoie vers l’article de Wikipedia.

S’il y a vraiment des demandes, j’essaierai de faire une petite présentation de ce que peuvent être les différents type de RAID.

Je traiterai ici des niveau de RAID suivants :

RAID 1, RAID 5, RAID 6.

L’idée de ce sujet m’est venue depuis un moment déjà, notamment devant la popularité de ce système, particulièrement dans les NAS.

Sommaire :

[b]1) Les “promesses” du RAID

  1. Ce que le RAID n’est pas (aka : Les dangers classiques du RAID)

  2. Les complications potentielles en cas de problèmes physiques

  3. Bilan[/b]

1) Les “promesses” du RAID.

Comme je l’ai évoqué en intro, je traiterai des niveau 1, 5 et 6 du RAID.

Pour ces 3 niveaux la promesse est la même, vous garantir que vous ne perdrez pas vos données si un de vos disques durs tombe en panne.
C’est plutôt séduisant, parce que mine de rien, avoir un disque dur qui tombe en carafe et perdre ses données reste quand même une grande peur pour un utilisateur d’informatique, encore plus en entreprise où les conséquences peuvent se montrer dramatiques (pertes de chiffre d’affaire potentiellement très importante, etc …).

Voyons un peu comment cet objectif peut être tenu :

Le RAID 1

Dans le cas du RAID 1, le fonctionnement est relativement simple, puisque les données sont stockées à l’identique sur deux disques, attention, il ne s’agit pas d’une sauvegarde, la modification des données des deux disques se faisant simultanément et en temps réel (j’y reviendrai à la prochaine section).

Du coup, si un disque dur tombe subitement en panne, le second est lui toujours fonctionnel et le système toujours fonctionnel. Bien entendu pour récupérer la redondance, il est nécessaire de remplacer le disque dur défectueux au plus vite.

Le RAID 1 offre une tolérance de panne de 1 disque (notez qu’il est théoriquement possible d’avoir un RAID 1 avec plus de deux disques, en pratique je ne l’ai jamais rencontré, je pars donc du principe que le RAID 1 fonctionne avec deux disques, si vous avez un contre exemple, n’hésitez pas à me le signaler).

Le RAID 5

Dans le cas du RAID 5, le fonctionnement est plus complexe.
Ce niveau de RAID nécessite 3 disques minimum.
Les données sont réparties en bande (comme dans le cas du RAID 0), en clair les données seront réparties sur plusieurs disques, MAIS les données de parités seront elle écrites sur un autre disque.

Ce système permet dans le cas où l’un des disques durs crashe de récupérer les données par calcul en prenant en compte les bandes de données restantes et la parité.

Pour moi, le RAID 5 est plus vulnérable que le RAID 1 (dans le cas où un disque est tombé), nous verront cela dans la section 3.

Le RAID 5 offre lui aussi une tolérance de panne de 1 disque.

Le RAID 6

Dans le cas du RAID 6, les choses se compliquent encore.

Le principe général du RAID 6 est globalement le même que pour le RAID 5 (données réparties en bandes + parité), mais les données de parité sont réparties sur N disques (en réalité, dans la pratique c’est souvent sur deux disques).

En conséquence de quoi le RAID 6 peut résister à la perte de 2 disques (je pars du fait qu’en pratique la parité est stocké sur 2 disques et non sur N).

Le RAID 6 a pour principal défaut d’être beaucoup plus gourmand en puissance de calcul que le RAID 5, sans compter que la reconstruction d’une grappe peut se révéler très longue.

2) Ce que le RAID n’est pas (aka : Les dangers classiques du RAID)

Je l’ai déjà dit pour le niveau 1 du RAID, le RAID n’est pas et ne sera jamais une manière de sauvegarder ses données (bien sûr rien n’empêche de stocker une copie de sauvegarde sur une grappe RAID).

En cas de problème logiciel (virus, crash du système de fichiers), ou d’erreur humaine (formater la mauvaise partition ça a du arriver à pas mal de monde, dont moi, éh oui :ane: ), TOUS les disques de la grappe seront impactés instantanément.
Et si c’est le cas, vous n’avez plus qu’a brûler un cierge, mettre du café en route et lancer un logiciel de récupération de données, voir de passer par une entreprise spécialisées, mais le coût peut se montrer astronomique, sans aucune garantie de succès.

3) Les complications potentielles en cas de problèmes physiques

C’est là que les choses sérieuses commencent, je vais essayer de vous expliquer pourquoi les niveaux de RAID 1, 5 et 6 ne sont pas d’une sécurité absolue.
Mais commençons tout d’abord par voir comment le système réagit en cas de panne d’un disque dur.

Le RAID 1

En cas de soucis matériel avec le RAID 1 (typiquement la défaillance d’un disque), les choses restent simples : La machine continue à fonctionner comme si de rien n’était, tout reste transparent pour l’utilisateur à part peut être l’affichage d’un message prévenant d’une défaillance d’un disque ou la réception d’un mail (cela dépend du logiciel de gestion du contrôleur RAID).

Une fois que l’on est prévenu, il faut donc remplacer le disque dur “malade” (cette phase est complétement automatique si l’on a défini un disque de remplacement), une fois le remplacement effectué, la reconstruction de la grappe RAID démarre.
Dans le cas du RAID 1 il s’agit d’une simple copie des données du disque sain, vers le nouveau disque remplaçant le malade.

Les RAID 5 et 6

En cas de défaillance d’un disque (un ou deux dans le cas du RAID 6, puisque ce niveau supporte une tolérance de panne de 2 unités), l’utilisation de la machine reste possible, l’utilisateur étant averti de la défaillance comme dans le cas du RAID 1.

Seulement la reconstruction diffère, il ne s’agit pas ici d’une simple copie de données, mais le contrôleur (ou le processeur central dans le cas d’un RAID logiciel) doit lire les données “brutes” et les données de parités restantes sur les disques durs sains et calculer les données à reconstituer, une phase critique, parce que si un problème survient à ce moment, la récupération de la grappe (et donc des données) peut échouer purement et simplement.

Mais, je vous vois venir, vous allez me demander pourquoi la récupération pourrait échouer ?

a) Le cas ou une seconde (ou 3e) unité est défectueuse.

Eh bien, tout d’abord parce qu’un second (ou 3e dans le cas du RAID 6) disque dur peut tomber en panne.
Eh oui, si la défaillance simultanée, ou en tout cas très rapprochée dans le temps de plusieurs disques durs est rarissime il est en revanche beaucoup plus probable que deux disque durs identiques et d’une même série (et c’est très souvent le cas dans les grappes RAID) ayant tourné le même nombre d’heures et soumis à la même usure présentent une défaillance similaire à plusieurs heures d’intervalle.

Il ne faut pas oublier que la reconstruction d’une grappe RAID est stressante pour les disques durs et que forcément le risque de défaillance lors d’une activité stressante pour la mécanique d’une unité de disque dur qui pourrait être en bout de course augmente.

Notez bien que ce risque concerne les grappes RAID 1, RAID 5 et RAID 6 dans une moindre mesure pour ce dernier niveau, puisque dans ce cas il faudrait que 3 unités soient défaillantes en même (ça reste tout de même possible, bien que relativement peu probable).

Il existe également 2 cas, dont un théorique, mais que l’on ne peut pas totalement exclure qui peuvent poser de gros problèmes lors d’une reconstruction de grappe RAID 5 (là encore le danger est plus limité pour le RAID 6)

b) Le cas où l’un des disques fonctionnels comporte un secteur défectueux.

On reprend notre cas où l’on a un disque défectueux sur notre grappe RAID 5.
Le disque en panne est remplacé, la reconstruction lancée, seulement (oui, vous avez compris, encore un scénario catastrophe :paf: ) l’un des disques restant, bien que fonctionnel contient un secteur défectueux …

Au moment où le contrôleur va passer sur le secteur défectueux, il va se produire une incohérence entre les données et la parité (puisque que du coup l’une des parties est manquante ou corrompue), ce qui provoquera dans le pire des cas (et c’est généralement ce qui arrive :nexath ) le crash de la reconstruction de la grappe avec la encore l’impossibilité de récupérer les données. [:kurdent]

Notez que ce problème potentiel concerne aussi le RAID 1 puisque le contrôleur peut alors considérer le disque restant contenant un secteur défectueux comme “en panne” (c’est ballot :paf: ) et arrêter la reconstruction.

Cependant, il est nettement plus facile de récupérer des données sur un RAID 1 (il suffit en général de récupérer le disque fonctionnel et d’utiliser un soft de récupération de données si les partitions ne sont pas lisibles directement par le système d’exploitation), que sur du RAID 5 (ou 6) dans ce cas il faut utiliser un soft dédié à la récupération du RAID, c’est très long et le résultat n’est jamais garanti (bon dans le cas du RAID 1 le taux de réussite n’est pas forcément de 100% non plus).
Notez que ce scénario b concerne aussi le niveau 6 du RAID, même si dans ce cas en plus du disque en panne, il faudrait 1 secteur défectueux sur deux disques restants pour crasher la reconstruction.

c) Le cas où les disques fonctionnels comportent des données incohérentes.

Là, c’est probablement LE cas le plus pernicieux et le moins connu et pourtant possible …

Tout d’abord il faut bien comprendre qu’un disque dur est donné avec un certain taux d’erreurs possibles (eh oui, rien n’est parfait dans ce bas-monde).

Je vois d’ici votre sourcil interrogateur se lever “Comment, les disques durs sur lesquels on enregistre nos données comportent un risque d’erreur ?”.

Eh, oui.

Alors, entendons nous bien, le taux de risque d’erreurs est extrêmement faible, MAIS il n’est pas nul.

Ce chiffre est d’ailleurs communiqué par les constructeurs (c’est le cas pour WD, il est vrai que je n’ai pas vérifié si c’était le cas chez tous).

Ce chiffre est nommé (chez WD) “Non-recoverable read errors per bits read” (oui, je prends toujours les docs techniques en anglais ça évite les traductions imprécises :ane: ), ce qui signifie en français dans le texte (in french in the text :ane: ) :

Erreurs de lectures non récupérables par bits lu.

Et ce chiffre pour les WD Black est inférieur à 1 erreur tous les 10^14 bits lus.

Wouaouh ! Ca fait très peu de risque d’erreurs …

Eh bien, oui, dans l’absolu le chiffre est énorme, mais en réalité, pas tant que ça eu égard de la capacité des disques actuels.

10^14 bits, ça fait en réalité environ 11641 Gio (la "vraie unité, celle où pour passer de Mega à Giga on à un rapport de 1024 et non pas de 1000 qui permet de gonfler artificiellement la capacité des disques, soit dit en passant c’est l’unité qu’utilise Windows, même s’il affiche GO).

11 Tio, c’est beaucoup me direz vous …

Et bien, pas tant que ça …

Les disques actuels atteignent couramment les 2 TO (1.8 Tio réels environ)

Donc, oui, 2 (ou 4 pour les plus gros) c’est bel et bien inférieur à 11.36 (en divisant 11641 par 1024 c’est ce qu’on obtient), mais au final ce n’est pas si grand que ça …

Pour ceux qui n’ont pas suivit le raisonnement le taux d’erreur de lecture non récupérable est donc inférieur à 1 erreur tous les 11.36 Tio.

Résultat des courses, eh oui, la probabilité (ce n’est qu’une probabilité, on est bien d’accord) d’avoir une erreur de lecture non récupérable lors d’une reconstruction (phase pendant laquelle la totalité du disque sera lu) devient bien réel, et si une erreur survient on risque fort de se retrouver dans la situation du “scénario catastrophe” B (rappelez vous, si la grappe est dégradé en, RAID 5 aucune erreur de lecture ne sera tolérée et une le sera en RAID 6 )…

C’est d’ailleurs une des raisons pour laquelle le RAID 5 n’est aujourd’hui plus conseillé en entreprise pour les applications critiques.

Pour ceux qui voudraient plus de détails là-dessus, je vous renvoie sur cet article (en anglais) traitant de ce problème

  1. Bilan

Loin de moi l’idée de vous dire “le RAID c’est de la daube !”, je voulais plutôt revenir sur quelques aspects parfois méconnus des utilisateurs de ces solutions.

Points cruciaux car si certains soucis surviennent au plus mauvais moment, le risque de perte total des données contenues dans la grappe est grand.
Et ne rêvez pas, si ce genre de problème doit se produire, ça arrivera forcément au plus mauvais moment.

C’est très rare, mais ça arrive, certains se rappellent peut être qu’il y a des années, un site français d’infos sur l’informatique a connu une pareille mésaventure, sauf que dans leur cas, le drame était allé jusqu’au bout : la solution de sauvegarde s’était elle aussi montré défaillante …

Bref, RAID ou pas, le meilleur moyen de se prémunir de la perte accidentelle de ses précieuses données reste de faire de multiples copies de sauvegardes (et de les maintenir à jour !) sur des supports physiques différents (et privilégiez les disques durs et les bandes magnétiques, les clés USB, DVD et CD sont a fuir pour un stockage pérenne).

En espérant avoir pu vous apporter un éclairage sur les problèmes que l’on peut rencontrer avec le RAID. :jap:

Si vous avez des questions ou des remarques là-dessus, ou de manière plus générale sur le RAID, n’hésitez pas. :jap:

PS : Merci à SanYohan pour la relecture. :slight_smile: :super:
Edité le 13/04/2014 à 19:13

:clap: , il manque le Raid 0+1 et le RAID 10 :smiley: (mon préféré :ane: , meme si je n’ai pas possibilité d’en faire un :ane: )

Bravo pour le travail.

J’avais choisi ma carte mère pour ses capacités a gérer le RAID.
Puis bon an mal an, j’avais laissé tomber pour arriver aux mêmes conclusions.

Super le boulot :wink:

Moi qui manipule tous les jours des RAID (majoritairement HARD , j’en bave parfois d’ailleurs :stuck_out_tongue: ), c’est super. :slight_smile:

:jap:

Pas impossible que j’ajoute d’autres modes par la suite. :wink:

Dans un premier temps, je voulais surtout faire la lumière sur le mode 5 qui peut se montrer bien plus vulnérable que certains l’imaginent. :jap:

:jap:

:jap:

:jap:

Ca faisait un moment que j’y pensais, il me fallait surtout prendre le temps d’écrire le topic. :ane:

+1 pour le raid hard :miam:

Merci pour cet article.
Pour ma part j’ai banni le Raid, trop peu sécurisé non pas au niveau des disques auxquels on pensent toujours mais au niveau du hard. Mon Nas est tombé en panne, ça aurait pu être l’alimentation, un condensateur sur la carte mère… moi, c?était le bouton marche/arrêt, cassé. Impossible de démarrer le Nas. Comme mes disques sont en standard (non raid) et formatés en Ext4 j’ai pu en 2 minutes en extraire un du Nas et le lire sur un PC Windows avec un utilitaire et en le branchant en volant sur une prise Sata externe. Impossible de faire la même chose avec un disque issue d’une grappe Raid ! J’ai pu me servir de mes données en attendant de trouver une solution d’ailleurs introuvable car j’ai du me résigner à coller la pièce à l’Araldite.
Je travail donc comme ça, les fichiers de chaque PC sont sauvegardés sur le disque 1 du Nas en sauvegarde immédiate et ce disque 1 et copier une semaine après sur le disque 2 du Nas.

:jap:

Pas sûr, pour avoir essayé, je n’ai jamais eu de soucis pour accéder à des disques durs en RAID (sur contrôleur Intel) sorti de leur grappe (je suis bien entendu passé en AHCI dans le Bios pour le test). :jap:

Après, n’ayant jamais essayé avec d’autres contrôleurs, je n’irai pas dire que c’est possible avec tous les autres, mais en règle générale ça semble être le cas. :jap:

Parce qu’en théorie, le RAID 1 n’a rien de particulier, les données sont copiées “normalement” sur les deux disques, seulement elles sont copiés en même temps sur les deux disques (qui sont vus comme un seul volume par l’OS).

Mais il n’y a pas de données ou de découpage spécifiques comme en RAID 0 (découpage en “bandes” de données réparties sur plusieurs disques) ou en RAID 5 / 6 (même chose, mais avec en plus des données de parités), qui dépendent forcément du contrôleur / firmware / logiciel. :jap:

le raid est a la base un truc de pro

apres quand on met ca sur du chip grand public , cm bas de gamme , avec des dur grand public avec des connaissance grand public on ne peut qu’arriver a des merdes …

perso a l’ancienne : toutes les données doublé sur dur , les vraiment importante triplé ( de toute facon ce sont les moins grosse )

arret des dvd , je passe les blueray

en dur que du black ou du nas si possible , le moins de plateau possible
Edité le 11/04/2014 à 21:43

Super boulot, clair et très didactique !

Ca m’a permis d’en apprendre sur le raid, et de me conforter dans mon choix d’une sauvegarde externe en plus de mon syno

merci pour ces super infos détaillées !!
donc je passe mon tour pour le NAS, je vais rester sur mes sauvegardes à la main sur HDD interne/externe / cloud :jap:

le raid c’est de la redondance evitant une interruption suite à a un pb disque, c’est pas du backup :neutre: s’en servir pour ça c’est juste courir devant les emmerdes…

donc le raid c’est tres bien mais ca n’empeche pas de backup a coté
Edité le 13/04/2014 à 11:07

c’est quoi le PLex ? , j’ai deja eu ce msg le Plex est manquant

Le/les RAID vont de plus en plus être utilisés. Notamment parce que les NAS sont devenus grand publique et sont très simple d’utilisation. Synology à même un type de RAID particulier SHR/SHR2 (1 ou 2 redondances).

Le RAID 5 est très pratique. Je l’utilise sur mon NAS avec 4 disques de 3 To. Je vérifie le RAID une fois par mois avec l’outil de Synology pour éviter les erreurs citées.
Le RAID 5 n’est pas à fuir. Je l’utilise depuis des années sans problème. Mais sur des NAS. Pas sur des PC.

Le RAID 1 est effectivement le plus “sûr” car le plus simple. Et il suffira à la majorité des utilisateurs.

Par contre SAUVEGARDE obligatoire, RAID ou pas. 2 pour les données les plus critiques car irrécupérables (exemple : photos).

Un point qui n’a pas été traité, c’est la sensibilité des grappes RAID aux coupures de courant. Sur le forum de Synology, tout le monde vous dira onduleur obligatoire si RAID. Ça limite aussi le problème d’éventuelle surtension.

Avec ça, les probabilités sont vraiment faibles d’avoir une perte complète des données.

Les RAID 10 ou 0+1 sont clairement orienté entreprise. Pour les particuliers, c’est RAID 1 ou 5. Le 6 est superflu et prends beaucoup de ressource. Un disque “spare” est aussi une bonne chose pour les entreprises. Comme les PME "pharmacie, cabinet médical…) avec un système RAID 1 + spare. C’est-à-dire un disque non utilisé qui remplace le disque non fonctionnel automatiquement si un disque flanche.

Je danse sur un fil suspendu au dessus des flammes, avec mon RAID 0, à ce que je vois !
Je sais même plus pourquoi je l’ai monté, sans doute pour me dire que j’ai optimisé en performances mon PC avec ce que j’avais (les SSD coûtaient un bras, à l’époque). Et il est resté comme ça.

la mode …

@juju251: Super travail, clair et bien détaillé. :clap:

Il y a aussi la chaleur que les disques n’aiment pas, ça peut créer tout un tas de choses bizarres comme des corruptions de données, créer des secteurs déffectueux.

Pour le RAID 1 + spare, on peut faire ça aussi pour les raid 5/6 logiciel (sous Linux il me semble que c’est possible et d’ailleurs je pense que je vais un mettre un en spare sur mon raid 5 logiciel). Sous Windows je ne connais pas bien et ceux de type matériel je ne sais pas.
Edité le 13/04/2014 à 13:04

Ca c’est l’argument ultime …

Très simple d’utilisation, tant que tout va bien. :ane:

Non, pas traité, en effet.
Parce que je n’y ai tout simplement pas pensé, ceci étant c’est exactement comme lorsqu’il y a un arrêt inopiné du système : en général on est bon pour une vérification de la grappe.

Stocker ses données sur un RAID 0, sans backup, c’est effectivement être en permanence sur le fil du rasoir et du grand n’importe quoi pour moi. :neutre:

:clap:

Magnifique avis, très argumenté.

Hein ? :paf:

Rien compris …

Développer quoi ?

ou laaaaaaaaaaaa

non je reviens ca ce que j’ai dit : dur grand public , dans petite merdouille en plastique a la mode

si un synologic est sensible au courant c’est que son alim et CM sont merdique de ce point de vue point barre

si la chaleur augmente trop c’est la conception du nas …

on en reviens au postula de depart un truc de pro que beaucoup de kéké tente d’utilisé pour etre a la mode

Un détail qui a son importance (!) dont j’ai oublié de noter dans mon précédent post.

Si vous avez un NAS et si vous avez mis en place une grappe RAID avec tolérance de panne (donc exit RAID 0 et RAID JBOD), en cas de défaillance non pas du disque mais de NAS. Par exemple l’alimentation qui lâche.
Dans ce cas, si vous avez opté pour un RAID 5/6/SHR ça me semble difficile voir impossible de récupérer les données. Sauf en transférant les disques dans un autre NAS de la même marque.

Je me permets peut-être de suggérer quelques points à noter dans son très bon post :

  • RAID un peu plus exotique SHR 1 ou 2 : mais qui est proposé par défaut sur les Synology. Ressemble à des RAID 1/5/6, mais exploite au maximum la capacité des disques en cas de disques de différentes capacités.
  • RAID JBOD. Mais je n’ai jamais réussi à récupérer des données en cas de défaillance d’un disque. Pourtant seul le 1er disque était utilisé. (JBOD = ajout des disques pour ne faire qu?un seul volume dont la capacité est égale à la somme des capacités de tous ces disques)
  • Sensibilité des grappes RAID aux coupures de courant et nécessité d’un onduleur.
  • spare : définition (disque non utilisé, en réserve. Si un disque flanche, celui-ci est automatiquement utilisé pour reconstruire au plus vite le RAID)
  • problème pour lire des disques en RAID sur un autre matériel, en cas de défaillance par exemple de l’alimentation du NAS.

Merci pour cette excellente sujet. Qui prend beaucoup d’importance avec des NAS de plus en plus “grand publique”, simple d’utilisation et simple à configurer. :wink:


[quote="juju251"] [quote="RonDex"] Le/les RAID vont de plus en plus être utilisés. Notamment parce que les NAS sont devenus grand publique et sont [b]très simple d'utilisation[/b]. Synology à même un type de RAID particulier SHR/SHR2 (1 ou 2 redondances). [/quote] Ca c'est l'argument ultime ...

Très simple d’utilisation, tant que tout va bien. :ane:
[/quote]

Ai-je dit cela ? C’est pour ça que ton sujet est pertinent, car il traite des différents types de RAID, qui procure plus ou moins un faux sentiment de sécurité. Et tu expliques très bien qu’il est absolument nécessaire d’avoir des sauvegardes. :jap:
Edité le 13/04/2014 à 13:05