Problèmes de disques
Par Nicolas le vendredi 16 mai 2008, 11:26 - Hébergement - Lien permanent
Hier en début d'après midi, nous avons perdu 2 disques sur un filer en moins de 3 mins. Sur ce genre de matériel la probabilité que cela arrive est très faible et nous avons donc
préféré prévenir les clients impactés de faire un backup de leur données si ce n'était pas déjà le cas (et comme mentionné clairement dans le contrat).
A 20h50, nous avons perdu un troisième disque et l'intégrité des données
Nos équipes ont passé la nuit à essayer de récupérer le volume RAID 6 du filer 13 sans y arriver.
Pour être transparent, nous n'allons pas nous réfugier sous la bannière Beta, ou la communication en amont (contrat et mail), la perte des données est totalement inadmissible. Même si ce qui est arrivé n'avait quasiment aucune chance de se produire, c'est arrivé et les clients concernés seront intégralement remboursés.
A 20h50, nous avons perdu un troisième disque et l'intégrité des données
Nos équipes ont passé la nuit à essayer de récupérer le volume RAID 6 du filer 13 sans y arriver.Pour être transparent, nous n'allons pas nous réfugier sous la bannière Beta, ou la communication en amont (contrat et mail), la perte des données est totalement inadmissible. Même si ce qui est arrivé n'avait quasiment aucune chance de se produire, c'est arrivé et les clients concernés seront intégralement remboursés.
Parlons maintenant de ce que nous sommes en train de faire pour modifier l'architecture disque de la plateforme.
En fait, depuis le début, les problèmes de disques sont assez récurrents avec :
- la perte sporadique de disques (transparente grâce au RAID 6 jusqu'à hier),
- des freezes temporaires lors des accès disques,
- le fait que la perte d'un filer pouvait entraîner la perte des données de nos clients.
Nous avons donc décidé de prolonger la période Beta jusqu'à ce que nous réglions tous ces points. Notre idée est, même si elle entraine des coûts supplémentaires, de changer la structure Raid pour que vos données soient répliquées sur 2 filers en permanence. Les choses avancent plutôt bien dans cette direction et nous espérons pouvoir vous donner de bonnes nouvelles d'ici peu de temps.
D'ici là, ce qui est arrivé une fois peut se reproduire, et nous vous conseillons donc vivement de faire une copie de vos données sensibles sur un disque local chez vous de manière périodique. Nous allons publier rapidement un tutorial pour expliquer comment faire pour ceux qui ne sont pas à l'aise avec Linux.
Pour réagir à ce billet c'est ici, de plus il est mis à jour régulièrement.


