OPNsense Forum

International Forums => German - Deutsch => Topic started by: Udo on April 02, 2020, 01:48:35 pm

Title: HA-Cluster mit Multi WAN (4x Tier1) - ein Gateway wird öfters nicht mehr genutzt
Post by: Udo on April 02, 2020, 01:48:35 pm: OPNsense 20.1.3-amd64
FreeBSD 11.2-RELEASE-p17-HBSD
OpenSSL 1.1.1d 10 Sep 2019

Hallo zusammen,

ich habe ein OPNsense HA-Cluster mit Multi WAN-Setup (u.a. eine GW-Group mit 4x Tier1), wo es immer mal wieder vorkommt, dass ein Gateway (nicht immer das gleiche GW) für einen längeren Zeitraum ungenutzt bleibt. (siehe Screenshots im Anhang)

Gateway Log für den Zeitraum:

2020-03-31T20:29:14 dpinger: GATEWAY ALARM: SK_PTP_GWv4 (Addr: 1.1.1.1 Alarm: 0 RTT: 18555ms RTTd: 15416ms Loss: 16%)
2020-03-31T20:29:14 dpinger: SK_PTP_GWv4 1.1.1.1: Clear latency 18555us stddev 15416us loss 16%
2020-03-31T20:29:02 dpinger: GATEWAY ALARM: SK_PTP_GWv4 (Addr: 1.1.1.1 Alarm: 1 RTT: 20255ms RTTd: 15715ms Loss: 22%)
2020-03-31T20:29:02 dpinger: SK_PTP_GWv4 1.1.1.1: Alarm latency 20255us stddev 15715us loss 22%

General Log:

2020-03-31T20:30:55 monit[43991]: 'gateway_alert' status failed (1) -- MONITOR: SK_PTP_GWv4 has packet loss, removing from routing group WANGWGROUP MONITOR: SK_PTP_GWv4 has packet loss, removing from routing group WANGWGROUP_SK
2020-03-31T20:29:02 opnsense: /usr/local/etc/rc.filter_configure: Ignore down inet6 gateways : SK_PTP_GWv4
2020-03-31T20:29:02 opnsense: /usr/local/etc/rc.filter_configure: Ignore down inet gateways : SK_PTP_GWv4

Das Gateway SK_PTP_GWv4 hat aktuell im Webinterface den Status "Online" und auf allen anderen drei Interfaces/GWs ist ganz normal Traffic.

Was könnte die Ursache dafür sein? Wie kann ich das Problem weiter analysieren?

Manchmal behebt sich das Problem scheinbar von allein, d.h. das GW wird z.B. nach 1-2 Tagen wieder genutzt, es sollte aber eine dauerhafte Lastverteilung auf alle GWs (4x Tier1) stattfinden.

Heute ab 16:30 Uhr gings auf einmal wieder, ich hatte zuvor neue VPN-Zugänge eingerichtet, Firewallregeln angepasst und abschließend unter "System: High Availability: Status" alle Dienste neugestartet. Im Log kann ich aber bezüglich des betroffenen GWs zu der Zeit keine Meldung entdecken.

Auch nach einem Neustart des HA-Clusterknoten, werden erstmal wieder alle GWs korrekt genutzt, nur das kann ja nicht die Lösung sein... ;)

Viele Grüße

Udo