HA - Keine CARP Übernahme trotz Ausfall GW_Main

Started by grefabu, April 07, 2026, 11:10:09 AM

Previous topic - Next topic
Moin,

ich versuche mich mal an der Situationsbeschreibung:

Wir haben zwei opnsense GW (MASTER / PEER)

Wir haben zum wiederholten male den Fall gehabt, das auf dem MASTER ein Problem entstand und die Dienste ihren Dienst quittiert hatten, aber der PEER nicht eingesprungen ist.

Aktuell ist mal wieder eine SSD defekt gegangen, dass habe ich so oft auch noch nicht gehabt. Es gab aber auch schon mal ein anderes Problem, die Probleme müssen nicht hier untersucht werden,...

Fakt war, das der MASTER zwar noch z.B. über einen Ping erreichbar war, aber es lief keinerlei Verkehr über das GW.
auf was prüft denn die HA / CARP Übernahme?

Welchen Lösungsansatz könnt Ihr mir empfehlen STONITH? Auf welche Trigger könnte ich da aufbauen?

Grüße

Gregor

Quote from: grefabu on April 07, 2026, 11:10:09 AMauf was prüft denn die HA / CARP Übernahme?

Auf Ausfall des Netzwerk-Links oder der ganzen Kiste. Sonst nichts. Speziell nicht auf irgendwelche Dienste.
Deciso DEC750
People who think they know everything are a great annoyance to those of us who do. (Isaac Asimov)

Moin,

vielen Dank für die Aufklärung.
Ob mir/uns das jetzt weiterhilft ist die Frage.

Unter HA stelle ich mir halt etwas anderes vor.
Evtl. müsste ich die MASTER Node an eine abschaltbare Steckdose setzen, wenn ich dann vom Peer alle 5 Minuten einen SSH auf die HA Schnittstelle mache und das nicht funktioniert: Kopf ab (STONITH)

,....

Quote from: grefabu on April 07, 2026, 02:36:55 PMEvtl. müsste ich die MASTER Node an eine abschaltbare Steckdose setzen, wenn ich dann vom Peer alle 5 Minuten einen SSH auf die HA Schnittstelle mache und das nicht funktioniert: Kopf ab (STONITH)
Aber SSH hätte wahrscheinlich im obigen Fall auch noch funktioniert.

HA in OPNsense basiert auf CARP, und das ist eben ein Netzwerkprotokoll.

Du kannst natürlich Monit konfigurieren, um verschiedene Parameter zu überwachen. Aber dazu müsste man erst wissen, welche möglichen Ursachen es für ein Versagen geben könnte.
Am einfachsten wäre es vielleicht, das System-Log auf bestimmte Fehler-Logs zu monitoren. Vermutlich findet sich da alles Relavante als Fehlereintrag.
Als Aktion könntest du dann das Abschalten eines CARP-Interface festlegen, was ein Failover auslösen müsste.