HA Cluster nach Update 23.1.10 (23.1.10_1) nicht mehr stabil

Started by space2place, July 03, 2023, 07:23:31 AM

Previous topic - Next topic
Guten Morgen...
Sorry das ich mit meinem ersten Post direkt mit so einem Problem anfange, aber ich tappe einfach im dunklen.
Ich betreibe ein HA-Cluster auf einer ProxMox Umgebung (3 Hardware Node). Bis jetzt lief die OPNsense Cluster (2 Nodes) super.
Alle Updates wurden eingespielt (erst Backup, Master in CARP Wartungsmodus, dann Primary und als letztes CARP Wartungsmodus deaktiviert).
So hat das die letzten Monate super funktioniert.

Nun habe ich seit dem Update 23.1.10 (23.1.10_1) das Problem, das auf einmal alle VIPs Offline gehen.
Offline schreibe ich, weil die dahinter liegenden VMs von aussen nicht mehr erreichbar sind. Ob die VIPs noch auf der Schittstelle (ip a s) vorhanden sind, habe ich noch nicht getestet (ist mir gerade erst in den Kopf gekommen). Die Logs (aus der WebUi) haben mir auch nichts klares ausgesagt.

Wenn ich dann den Primary in den CARP Wartungsmodus setze, kommen die VIPs sofort wieder Online.
Gestern ist um die Mittagszeit aufgetreten und ich habe von Unterwegs den CARP Wartungsmodus aktiviert um heute morgen mir das genauer anzusehen. Leider hat dann heute Nacht auch der 2. Node die VIPs verloren.

Ein deaktivieren des CARP Wartungsmodus hat nicht geholfen. Erst wo ich den Node 2 gebootet habe lief alles wieder.

Was mir bei dem aktivieren des CARP Wartungsmodus im Fehlerfall aufgefallen ist, daß die LAN VIP auf beiden Nodes als Master angezeigt wird. Das war auch heute morgen das Problem.

Genaue Zeitpunkte gibt es da auch nicht, da die Uhrzeiten variieren. Mal um die Mittagszeit, mal mitten in der Nacht.

Ich hoffe ich konnte mein Problem gut erklären und hoffe das Ihr mir irgendwie helfen könnt.

Gruß
Sascha


Edit: Auf dem Cluster ist auch Zenarmor in der Business Edition installiert.

Guten Morgen zusammen...
ich habe heute Morgen mal die System Logs geleert um hier mehr Infos liefert zu können. Gerade um 09:10 Uhr ist es dann wieder aufgetreten. Der Provider hat gestern schon die Mac Filter deaktviert, da das wohl auch zu Fehlern führen kann.

Hier mal die Logs von FW1
2023-07-04T09:10:16 Notice kernel <6>carp: 1@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 4@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>carp: 2@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 5@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 6@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 7@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 8@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 9@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 10@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 11@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 12@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 13@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 14@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 15@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 19@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 18@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 16@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 17@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 21@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 20@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 23@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 25@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 22@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 24@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>in_scrubprefix: err=65, prefix delete failed
2023-07-04T09:10:16 Notice kernel <6>carp: 26@vtnet0: MASTER -> BACKUP (more frequent advertisement received)
2023-07-04T09:10:16 Notice kernel <6>carp: demoted by 240 to 240 (sysctl)
2023-07-04T09:10:16 Notice opnsense /usr/local/etc/rc.syshook.d/carp/20-openvpn: Resyncing OpenVPN instances for interface Virtual WAN (***.***.***.*** - meine-domain.tld) (***.***.***.***).
2023-07-04T09:10:16 Notice opnsense /usr/local/etc/rc.syshook.d/carp/20-openvpn: Carp cluster member "Virtual WAN (***.***.***.*** - meine-domain.tld) (***.***.***.***) (26@vtnet0)" has resumed the state "BACKUP" for vhid 26


Danach kommen dann nur noch die Einträge von dem Schwenk.
Und hier das Log der FW2:
2023-07-04T09:10:16 Notice kernel <6>carp: 1@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 2@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 4@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 5@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 6@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 7@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 8@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 9@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 10@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 11@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 12@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 13@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 14@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 15@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 16@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 17@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 18@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 19@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 21@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 20@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 23@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 22@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 25@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 24@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:16 Notice kernel <6>carp: 26@vtnet0: BACKUP -> MASTER (preempting a slower master)
2023-07-04T09:10:05 Notice configctl event @ 1688454605.22 exec: system event config_changed
2023-07-04T09:10:05 Notice configctl event @ 1688454605.22 msg: Jul 4 09:10:05 od-fw2.mein-domain.tld config[619]: config-event: new_config /conf/backup/config-1688454605.2026.xml
2023-07-04T09:10:05 Notice kernel <6>carp: demoted by -240 to 0 (sysctl)
2023-07-04T09:09:57 Notice configctl event @ 1688454597.22 exec: system event config_changed
2023-07-04T09:09:57 Notice configctl event @ 1688454597.22 msg: Jul 4 09:09:57 od-fw2.mein-domain.tld config[31642]: config-event: new_config /conf/backup/config-1688454597.2032.xml
2023-07-04T09:09:57 Notice kernel <6>carp: demoted by 240 to 240 (sysctl)
2023-07-04T09:06:55 Notice opnsense /usr/local/etc/rc.syshook.d/carp/20-openvpn: Resyncing OpenVPN instances for interface Virtual LAN IP (192.168.5.1) (192.168.5.1).
2023-07-04T09:06:55 Notice opnsense /usr/local/etc/rc.syshook.d/carp/20-openvpn: Carp cluster member "Virtual LAN IP (192.168.5.1) (192.168.5.1) (3@vtnet1)" has resumed the state "MASTER" for vhid 3
2023-07-04T09:06:55 Notice kernel <6>carp: 3@vtnet1: BACKUP -> MASTER (master timed out)


Ich habe aktuell keine Idee wo ich ansetzen könnte.
Gruß
Sascha

Guten Morgen zusammen,
es sieht so aus als ob ich das Problem fixen konnte. Es gibt 2 Möglichkeiten woran es gelegen haben kann.

Ich habe beide FW VMs in ProxMox heruntergefahren. Einer nach der anderen. So wie es auch bei einem Update gemacht wird. Aber wichtig war das die heruntergefahren und nicht neu gestartet wurde. Durch das Herunterfahren wird ein neuer Prozess in ProxMox gestartet.

Dann hat mir der ProMox Provider, für die Schnittstelle "PFSync", ein neues Vlan erstellt. In der alten Konfig lagen die Schittstelle "LAN" und "PFSync" im gleichen VLAN. Das hatte mich von Anfang an gestört, aber es gab keine Probleme und ging damit in Vergessenheit.

Vorher hatte ich noch Zenarmor in den "Bypass Modus" gestellt um sicher zu gehen, daß mir Zenarmor (was an dem Tag auch ein Update hatte) keinen Ärger macht.

Nun sind 36 Stunden vorbei und es gab keine Ausfälle. Heute Morgen habe ich dann Zenarmor wieder aktiviert.
Ich denke das Problem ist behoben.
Ein Problem von der Firmware schließe ich aus. Das ist eher ein hausgemachtest Problem (VLAN) gewesen oder ein Bit im ProxMox hat geklemmt.

Gruß
Sascha