NVM subsystem reliability has been degraded

Started by stulpinger, February 01, 2026, 07:01:57 PM

Previous topic - Next topic
Hi@All,

System läuft "noch" einwandfrei, nvme ist zu 6% belegt

unter Services - SMART - Info - Health erhalte ich folgende Info:

smartctl 7.5 2025-04-30 r5714 [FreeBSD 14.3-RELEASE-p7 amd64] (local build)
Copyright (C) 2002-25, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
- NVM subsystem reliability has been degraded

Zusätzliche Info unter View Logs - Self-Test - View

smartctl 7.5 2025-04-30 r5714 [FreeBSD 14.3-RELEASE-p7 amd64] (local build)
Copyright (C) 2002-25, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
Self-test Log (NVMe Log 0x06, NSID 0xffffffff)
Self-test status: No self-test in progress
Num  Test_Description  Status                       Power_on_Hours  Failing_LBA  NSID Seg SCT Code
 0   Short             Completed: failed segments            24806            -     1   2   -    -
 1   Short             Completed: failed segments            24403            -     1   2   -    -
 2   Short             Completed: failed segments            22771            -     1   2   -    -
 3   Short             Completed: failed segments            22771            -     1   2   -    -

Ausgabe von gpart show mit SSH - Shell:

=>       40  488397088  nda0  GPT  (233G)
         40     532480     1  efi  (260M)
     532520       1024     2  freebsd-boot  (512K)
     533544        984        - free -  (492K)
     534528   16777216     3  freebsd-swap  (8.0G)
   17311744  471085056     4  freebsd-zfs  (225G)
  488396800        328        - free -  (164K)


Meine grundsätzliche Frage(n):

Ist der Austausch der nvme schon notwendig ?
Gibt es eine Art "Windows-chkdsk" mit Reparatur ?

Ein Clonen der nvme wäre meinerseits kein Problem
oder sollte ich bei "Null" neu beginnen ? Backup der Eintellunge ist vorhanden

LG

Christian

Hi,

M.2 500GB bestellt und geliefert, sage und schreibe € 90
M.2 Clone Station bestellt, sollte morgen eintreffen, kann man "immer" brauchen

Inzwischen eine Reserve-Firewall, OPNsense DEC750 mit 1TB + 16GB , mit meinen diversen VLANs etc. grundlegend konfiguriert,
falls es Probleme beim Clonen etc. geben sollte

Werde weiter berichten

LG

Christian

kriegst du die terrybytes written heraus?
wäre ja interessant zu wissen, ob das ding totgeschrieben wurde und man da vielleicht die ursache finden muss

Warum klonen, wenn die vorhandene sicher Probleme hat? Neu installieren, Config zurückspielen, fertig. Solltest du bisher nicht mit ZFS installiert haben, solltest du das diesmal tun.
Deciso DEC750
People who think they know everything are a great annoyance to those of us who do. (Isaac Asimov)

Guten Abend,

war am Eis - Eisstock schiessen

nach der Arbeit folgendes durchgeführt:

Netzwerkkabel numeriert, 1 x IPMI, 3 x RJ45 1G, 2 x RJ45 10G, 2 x SFP+ 😎

Hardware aus dem Rack ausgebaut, gereinigt, M.2 entnommen, war doch eine 256 GB, hatte ich noch rumliegen

Offline gecloned - no risk no fun - Dauer 10 Minuten !!!

Alles wieder zusammengebaut und eingebaut

und läuft wieder einwandfrei - irgendwie subjektiv "flotter" als vorher

LG

Christian

Screenshot Crystal Disk Info der alten M.2

You cannot view this attachment.






Das sind 106TB geschrieben in 3 Jahren. (Das Rating der Platte ist 150TB)
Das ist verdammt viel?!
Ich vermute du hast irgendwo ein Log Spamming Sondergleichen und wirst dir auch deine neue Festplatte killen...

Habe unterm System/Settings/Miscellaneous

/var/log RAM disk
/tmp RAM disk

aktiviert

weiters unter Reporting/Settings

Round-Robin-Database deaktiviert

werde weiter beobachten


Als ich meine erste DEC750 bekam, habe ich mich nach wenigen Wochen gewundert, wieso die SSD schon bei 2% lag. Ich habe dann auch gesehen, dass RRD und Logging viel schreiben. Natürlich habe ich dann mit RAM-Disk gearbeitet, aber das brachte weniger als erwartet. Das lag einerseits daran, dass RRD m.W. immer auf die SSD schreibt, was Du ja jetzt deaktiviert hast (gut!).

Andererseits war es aber so, dass die ZFS Commits suboptiomal waren. Das wurde dann mit 23.7.12 geändert - Franco hat mal was darüber geschrieben. Bei den später neu eingerichteten Instanzen war das Problem um Größenordnungen kleiner.

Eventuell auch mal vfs.zfs.txg.timeout (90) und vfs.zfs.dirty_data_sync_percent (5) checken.
Intel N100, 4* I226-V, 2* 82559, 16 GByte, 500 GByte NVME, ZTE F6005

1100 down / 800 up, Bufferbloat A+

Und wenn man Netflow verwenden möchte, auf gar keinen Fall auf der Firewall laufen lassen sondern in ein geeignetes System exportieren, was die OPNsense ganz prima kann.
Deciso DEC750
People who think they know everything are a great annoyance to those of us who do. (Isaac Asimov)

Danke für die Infos

vfs.zfs.txg.timeout (90) und vfs.zfs.dirty_data_sync_percent (5)
hab ich überprüft, ist auf 90 bzw. 5 eingestellt
netflow ist deaktiviert