NVM subsystem reliability has been degraded

stulpinger · February 01, 2026, 07:01:57 PM

Hi@All,

System läuft "noch" einwandfrei, nvme ist zu 6% belegt

unter Services - SMART - Info - Health erhalte ich folgende Info:

smartctl 7.5 2025-04-30 r5714 [FreeBSD 14.3-RELEASE-p7 amd64] (local build)
Copyright (C) 2002-25, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
- NVM subsystem reliability has been degraded

Zusätzliche Info unter View Logs - Self-Test - View

smartctl 7.5 2025-04-30 r5714 [FreeBSD 14.3-RELEASE-p7 amd64] (local build)
Copyright (C) 2002-25, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
Self-test Log (NVMe Log 0x06, NSID 0xffffffff)
Self-test status: No self-test in progress
Num Test_Description Status Power_on_Hours Failing_LBA NSID Seg SCT Code
0 Short Completed: failed segments 24806 - 1 2 - -
1 Short Completed: failed segments 24403 - 1 2 - -
2 Short Completed: failed segments 22771 - 1 2 - -
3 Short Completed: failed segments 22771 - 1 2 - -

Ausgabe von gpart show mit SSH - Shell:

=> 40 488397088 nda0 GPT (233G)
40 532480 1 efi (260M)
532520 1024 2 freebsd-boot (512K)
533544 984 - free - (492K)
534528 16777216 3 freebsd-swap (8.0G)
17311744 471085056 4 freebsd-zfs (225G)
488396800 328 - free - (164K)

Meine grundsätzliche Frage(n):

Ist der Austausch der nvme schon notwendig ?
Gibt es eine Art "Windows-chkdsk" mit Reparatur ?

Ein Clonen der nvme wäre meinerseits kein Problem
oder sollte ich bei "Null" neu beginnen ? Backup der Eintellunge ist vorhanden

LG

Christian

stulpinger · February 04, 2026, 04:34:20 PM

Hi,

M.2 500GB bestellt und geliefert, sage und schreibe € 90
M.2 Clone Station bestellt, sollte morgen eintreffen, kann man "immer" brauchen

Inzwischen eine Reserve-Firewall, OPNsense DEC750 mit 1TB + 16GB , mit meinen diversen VLANs etc. grundlegend konfiguriert,
falls es Probleme beim Clonen etc. geben sollte

Werde weiter berichten

LG

Christian

cottec · February 04, 2026, 10:24:26 PM

kriegst du die terrybytes written heraus?
wäre ja interessant zu wissen, ob das ding totgeschrieben wurde und man da vielleicht die ursache finden muss

Patrick M. Hausen · February 04, 2026, 10:34:53 PM

Warum klonen, wenn die vorhandene sicher Probleme hat? Neu installieren, Config zurückspielen, fertig. Solltest du bisher nicht mit ZFS installiert haben, solltest du das diesmal tun.

stulpinger · February 05, 2026, 11:37:54 PM

Guten Abend,

war am Eis - Eisstock schiessen

nach der Arbeit folgendes durchgeführt:

Netzwerkkabel numeriert, 1 x IPMI, 3 x RJ45 1G, 2 x RJ45 10G, 2 x SFP+ 😎

Hardware aus dem Rack ausgebaut, gereinigt, M.2 entnommen, war doch eine 256 GB, hatte ich noch rumliegen

Offline gecloned - no risk no fun - Dauer 10 Minuten !!!

Alles wieder zusammengebaut und eingebaut

und läuft wieder einwandfrei - irgendwie subjektiv "flotter" als vorher

LG

Christian

Screenshot Crystal Disk Info der alten M.2

You cannot view this attachment.

cottec · Reply #5 - Re: NVM subsystem reliability has been degraded

Das sind 106TB geschrieben in 3 Jahren. (Das Rating der Platte ist 150TB)
Das ist verdammt viel?!
Ich vermute du hast irgendwo ein Log Spamming Sondergleichen und wirst dir auch deine neue Festplatte killen...

stulpinger · Reply #6 - Re: NVM subsystem reliability has been degraded

Habe unterm System/Settings/Miscellaneous

/var/log RAM disk
/tmp RAM disk

aktiviert

weiters unter Reporting/Settings

Round-Robin-Database deaktiviert

werde weiter beobachten

meyergru · Reply #7 - Re: NVM subsystem reliability has been degraded

Als ich meine erste DEC750 bekam, habe ich mich nach wenigen Wochen gewundert, wieso die SSD schon bei 2% lag. Ich habe dann auch gesehen, dass RRD und Logging viel schreiben. Natürlich habe ich dann mit RAM-Disk gearbeitet, aber das brachte weniger als erwartet. Das lag einerseits daran, dass RRD m.W. immer auf die SSD schreibt, was Du ja jetzt deaktiviert hast (gut!).

Andererseits war es aber so, dass die ZFS Commits suboptiomal waren. Das wurde dann mit 23.7.12 geändert - Franco hat mal was darüber geschrieben. Bei den später neu eingerichteten Instanzen war das Problem um Größenordnungen kleiner.

Eventuell auch mal vfs.zfs.txg.timeout (90) und vfs.zfs.dirty_data_sync_percent (5) checken.

Patrick M. Hausen · Reply #8 - Re: NVM subsystem reliability has been degraded

Und wenn man Netflow verwenden möchte, auf gar keinen Fall auf der Firewall laufen lassen sondern in ein geeignetes System exportieren, was die OPNsense ganz prima kann.

stulpinger · Reply #9 - Re: NVM subsystem reliability has been degraded

Danke für die Infos

vfs.zfs.txg.timeout (90) und vfs.zfs.dirty_data_sync_percent (5)
hab ich überprüft, ist auf 90 bzw. 5 eingestellt
netflow ist deaktiviert

NVM subsystem reliability has been degraded

stulpinger

February 01, 2026, 07:01:57 PM

stulpinger

February 04, 2026, 04:34:20 PM #1

cottec

February 04, 2026, 10:24:26 PM #2

Patrick M. Hausen

February 04, 2026, 10:34:53 PM #3

stulpinger

February 05, 2026, 11:37:54 PM #4

cottec

Today at 12:52:29 AM #5

stulpinger

Today at 07:25:43 AM #6

meyergru

Today at 02:12:10 PM #7

Patrick M. Hausen

Today at 02:29:27 PM #8

stulpinger

Today at 03:12:31 PM #9