PROJET AUTOBLOG


Opennews

source: Opennews

⇐ retour index

« Les SSD, ce n'est pas fiable, je préfère rester sur des HDD ! » - oh vraiment ? - oui vraiment !

dimanche 17 mai 2020 à 01:44
Si la conclusion est indéniable: mettez en place une stratégie de sauvegarde de vos données appropriée et appliquez là. Ayez plusieurs sauvegardes de vos données qui sont vérifiées et que vous savez restaurer, le reste du billet est discutable/faux/simpliste.

Simpliste parce que "les SSD" ça ne veut rien dire; Un SSD c'est un assemblage de cellules qui sont gérées par un contrôleur[1], les cellules peuvent être de différents types qui vont du plus fiable/plus cher au moins fiable/moins cher: SLC/eMLC/MLC/3D V NAND TLC/TLC/QLC/PLC (pour Single/entreprise/Multi/3D vertical/Triple/Quad level cell qui indique le nombre de bits stockés par cellule.) Or le nombre de cycles d'écriture varie énormément (2 à 3 degré de magnitude) entre les deux extrêmes de 100 000 cycles pour la technologie SLC à 150 pour la technologie QLC (qui est passé à 1000 cycles avec la technologie 3D NAND).

Faux parce qu'une étude[2] de 2016 sur les SSDs des datacenters de google sur une période de 6 ans a trouvé un taux de SSD devant être remplacés de 4 à 10% avant 4 ans, tandis que les statistiques de backblaze[3]:https://www.backblaze.com/blog/hard-drive-stats-for-2018/ portant sur 100 000 disques durs trouve un taux de panne annuel inférieure à 1,25% en moyenne et en dessous de 0,4% pour le modèle le plus fiable. On est sur une toute autre échelle que "un magazine allemand a fait des tests sur 8 SSD de 250Go avec 2 exemplaires de chaque modèle-".

Discutable parce que l'argument "la quantité totale de données écrites sur les disques dépassait la capacité maximale donnée par le constructeur." est à mettre en rapport avec ce qu'on sait depuis bien longtemps les capacités annoncées par les constructeurs sont très largement sous-estimées, parfois jusqu'à un facteur 10 et parce qu'il n'y a rien de nouveau ni d'étonnant dans les résultats trouvés par les tests du magazine, au mieux ça confirme que ça n'a guère évolué depuis "the SSD endurance test" de techreport[5] de 2013.

Faux à nouveau parce que la capacité maximale d'écriture n'a aucun rapport avec la notion de fiabilité. La fiabilité c'est avant tout la capacité à fonctionner sans erreurs au cours du temps, mais aussi la capacité à détecter et corriger les erreurs et en dernier point la possiblité de récupérer les données quand la panne finale survient. La capacité maximale d'écriture correspond à la panne finale, mais le début de la fin de vie du SSD correspond à peu près au moment où il commence à allouer ses blocs de réserve, car c'est là que les erreurs commencent à se produire. L'agonie qui le mènera à la panne finale sera plus ou moins longue et peut entrainer corruption de données, dégradation des données ou même perte de données ou pas. Comme on a pu le voir dans "the SSD endurance test" les constructeurs ont des approches très différentes, chez intel le SSD passe en lecture seule dès qu'il approche le seuil de tolérance et se suicide au reboot suivant, sa panne finale est brutale mais a très peu de chance de corruption des données tandis que d'autres constructeurs préfèrent pousser au maximum l'agonie du SSD avec tous les risques de corruption de données que ça implique.[6][7]
On pourra comparer la différence entre la version evo et la version pro du samsun 840, le samsung 840 pro 256Go en MLC a atteint 2000To d'écriture totale mais a entamé sa fin de vie à la barre des 600To[8], alors que  samsung 840 evo en TLC a commencé à réallouer des blocs de réserve au bout de 100To d'écriture[9] pour atteindre la panne finale à 900To.

Mais ces tests d'endurance et de capacité totale d'écriture donnent une vision faussée par rapport aux usages dans le monde réel, ce que l'étude sur les SSD dans les datacenters de google a mis en évidence  c'est que le principal facteur de fiabilité des SSD c'est l'âge de l'appareil, mesuré en jours d'utilisation et non la quantité de données lues ou écrites, suggèrant que d'autres mécanismes d'usure sont en jeu. Ce qui explique pourquoi lors du "ssd endurance experiment" la machine de test a connu des problèmes de stabilité liés au SSD sur lequel le système d'exploitation était installé, celui n'avait eu que quelques To d'écrit au cours de sa vie, sans blocs réalloués ni erreurs non corrigées au niveau des données S.M.A.R.T., pas de problème de connectique et une alimentation électrique correcte et stable mais un SSD qui avait plus de 2 ans.[10].

Un SSD a donc tendance a introduire des erreurs au cours de sa vie et cette tendance s'accroit avec son age et avec l'usure, et ce que montre la même étude c'est que ces erreurs sont souvent non corrigibles et que si le taux d'erreurs non corrigibles (ou UBER) n'est en fait pas non plus un bon moyen de prédire une défaillance, ce taux est plus élevés avec les SSD que les disques durs et peut entraîner corruption ou pertes de données en raison de blocs illisibles.

On peut aussi ce passage  "Les blocs défectueux dans les nouveaux SSD sont courants, et les disques comportant un grand nombre de blocs défectueux sont beaucoup plus susceptibles de perdre des centaines d'autres blocs, très probablement à cause d'une défaillance de la puce ou du die. 30 à 80 % des SSD développent au moins un bloc défectueux et 2 à 7 % développent au moins une mauvaise puce au cours des quatre premières années de déploiement". Ce qui n'est pas surprenant quand on sait que c'est le résultat du test qualité en sortie de chaine production des puces qui va déterminer son destin, une puce ayant de bons résultats au test qualité sera destinée aux équipements pro tandis qu'une puce ayant de mauvais résultats ira garnir le marché grand public.

Rappelons que là où le disque dur peut développer un secteur défectueux, pour le SSD cela se passe à l'échelle du bloc (qui regroupe 32 secteurs), autrement dit que la même panne est non seulement plus fréquente pour les SSD mais porte sur 32x plus de données à chaque fois par rapport à une disque dur.

Parlons maintenant de récupération des données en cas de panne. Pour le disque dur les pannes sont souvent similaires et permettent généralement de récupérer partiellement ou intégralement les données avec un coût allant de raisonnable à elevé. C'est une toute autre histoire avec les SSDs, où les pannes sont variées allant du silence complet, à la lecture seule en passant par l'écriture qui générènt d'énormess quantités d'erreurs avec le potentiel de corrompre les données existantes ou d'erreur de lecture. Pour les SSD la récupération des données est le plus souvent impossible du fait du manque de transparence sur le fonctionnement interne au nom du secret industriels mais aussi des techniques utilisées pour prolonger la durée de vie des SSD comme la compression ou le wear leveling. Là où on peut faire une greffe de PCB sur un disque dur ou en ultime recours lire les informations magnétiques directement sur les plateaux, on ne peut pas remplacer les composants du SSD ou extraire les données d'une puce (ne sachant même pas comment elles sont organisées). Ici encore c'est le disque dur qui l'emporte.

On pourrait aussi parler de la capacité à conserver les données déconnecté de l'alimentation électrique, cette capacité diminue pour le SSD avec les cycles d'écritures et si on l'estime à au moins 10 ans avant que des erreurs non correctibles apparaissent pour les SSD en SLC, il suffit de quelques mois pour pour les SSD en TLC. Tandis que pour un disque dur c'est plutôt 30 ans[11].

La conclusion c'est que les SSDs sont plus rapides et offrent de plus gros débits avec toutefois des capacité de stockage plus petites pour des prix plus élevés que les disques durs, et si ils ont certains avantages comme une meilleure résistance aux chocs, aux vibrations, une moindre consommation électrique, moins de nuisances sonore, ils ont d'autres défauts et ont encore du chemin à faire pour atteindre le niveau de fiabilité des disques durs si toutefois ils arrivent à l'égaler un jour car sur certains point comme la possibilité de récupération des données cela semble hors de portée.


[1]: https://www.supinfo.com/articles/resources/213567/5267/8.png
[2]: http://0b4af6cdc2f0c5998459-c0245c5c937c5dedcca3f1764ecc9b2f.r43.cf2.rackcdn.com/23105-fast16-papers-schroeder.pdf
[3]: https://www.backblaze.com/blog/hard-drive-stats-for-2018/
[4]: citation de Marc Prieur (hardware.fr) lors d'une interview pour lesnumériques.com en 2013: "Au delà des performances, mieux vaut se pencher sur l'aspect fiabilité, difficile à évaluer sur la base des caractéristiques. Parfois, le constructeur annonce le nombre de cycles d'écritures supportés par la flash embarquée (en principe de 1000 en TLC à 100000 en SLC) ;(...) Souvent hélas, ils se contentent de donner un volume d'écriture sur une durée ou par jour sur une durée, qui sont largement sous-estimés dans de nombreux cas, et donc peu indicatif... (NDLR : comme sur le SSD OCZ Vector de 128 Go, donné pour 36 To de données écrites, soit 285 cycles seulement malgré sa mémoire MLC censée en assurer au moins 10 fois plus)." -- https://www.lesnumeriques.com/ssd/ssd-tout-savoir-tout-comprendre-a1630.html
[5]: https://techreport.com/review/24841/introducing-the-ssd-endurance-experiment/
[6]: https://techreport.com/r.x/ssd-endurance-theend/earlyfailures.gif
[7]: https://techreport.com/review/27909/the-ssd-endurance-experiment-theyre-all-dead/
[8]: https://techreport.com/review/27436/the-ssd-endurance-experiment-two-freaking-petabytes/
[9]: https://techreport.com/r.x/endurance-1pb/vitals-840.gif
[10]: https://techreport.com/review/25889/the-ssd-endurance-experiment-500tb-update/
[11]: https://www.ontrack.com/blog/2016/05/19/hdds-vs-ssds/
(Permalink)