Netzwerk friert ständig ein

Started by LuciferB, March 05, 2021, 11:48:24 AM

Previous topic - Next topic
March 05, 2021, 11:48:24 AM Last Edit: March 22, 2021, 06:01:34 PM by LuciferB
Hallo in die Runde,

ich hoffe jemand hat ein paar Tipps uns weiterzuhelfen. Wir haben bisher immer auf pfSense gesetzt und sind jetzt für einen neuen Kunden nach diversen Tests auf OPNsense umgestiegen, da wir die Weiterentwicklung als sehr positiv beobachtet haben.


Kurz zum Aufbau:

- OPNsense auf einem MicroServer Intel Atom C3758 16GB RAM
- Fritzbox 5490 Fiber an einem LWL 500MBit/s Anschluss
- Fritzbox per Gigabit LAN am OPNsense
- OPNsense per Gigabit LAN an einem HP Pro Managed Switch
- Fritzbox im Exposed Host zur OPNsense
- MTU 1500 durchgehend


Kurz zur Konfiguration:

- OPNsense 20.7
- nur IPv4, kein IPv6
- 1x VLAN1 (für die Infrastruktur)
- 1x VLAN5 (für die Nutzer)
- kein Eins-zu-Eins NAT
- 3 Standard Outbound Rules über WAN (local, VLAN1, VLAN5)
- Traffic Shaper aktiv: FlowQueue-CoDel
- Unbound DNS aktiv mit Weiterleitung an zwei DNS (8.8.8.8, 8.8.4.4 über WAN)
- sonst ist nichts aktiv, kein IPS, kein VPN, kein Monitoring, nichts


Das Problem:

Das Problem fing damit an, dass wenn etwa 30 Nutzer das Netz genutzt haben, die States bis 10.000 hoch geschossen sind. Sobald sich die States über 5 bis 6000 begeben, fängt aber das komplette Netzwerk an einzufrieren. Selbst ein Ping klappt dann nur noch sporadisch.
Daraufhin haben wir über die Rules die Max States pro Device begrenzt. Dann lief es eine Weile stabil. Doch jetzt fängt das Problem wieder an. Die States gehen zwar nicht mehr so hoch, aber in unregelmäßigen Abständen friert das Netzwerk ein und kein einziger Nutzer im Netz kann mehr arbeiten.

Die Lösung war bisher immer die OPNsense oder die Fritzbox neu zu starten. Wir haben schon Netzwerke realisiert mit pfSense und Fritzbox für über 200 Mitarbeiter ohne bisher jemals Probleme gehabt zu haben. Aber wir sehen hier einfach den Wald vor lauter Bäumen nicht. Wo ist blos das Problem.

Wäre wirklich super, wenn hier irgendeiner ein paar Ideen hat, und wenn es auch nur Brainstorming darüber ist, was wir uns vielleicht noch anschauen sollten. Leider haben uns Suchmaschinen bisher nicht auf den gewünschten Erfolg gebracht.

Vielen vielen Dank schon mal!

Vielleicht hilft dir das weiter
https://www.reddit.com/r/PFSENSE/comments/28dkjf/pfsense_states_table_cpu_high_load_help/

Aber sonst würde mich das ganze auch Interessieren.
(Unoffial Community) OPNsense Telegram Group: https://t.me/joinchat/0o9JuLUXRFpiNmJk

PM for paid support

Vielleicht ist auch dein CPU etwas schwach

Was sagt den "top" während dein Netzwerk hängt
(Unoffial Community) OPNsense Telegram Group: https://t.me/joinchat/0o9JuLUXRFpiNmJk

PM for paid support

Vielen Dank für die ersten Tipps. Es handelt sich um einen Atom mit 2,2GHz mit 8 Kernen und 8 Threads.

Die CPU Last ist durchgehend unter 1%, auch wenn die States in die Höhe schießen. Die Auslastung des Systems ist durchgehend sehr niedrig. Die CPU Last geht höchstens mal hoch, wenn ich irgendwelche Abfragen starte. Aber es können selbst 10.000 States sein und die CPU schlummert brav.

Zum Test mal den Traffic Shaper deaktiviert?

Und vielleicht Mal Update auf 21.1.2 machen
(Unoffial Community) OPNsense Telegram Group: https://t.me/joinchat/0o9JuLUXRFpiNmJk

PM for paid support

Okay, danke!

Traffic Shaper war zum Test mal deaktiviert, aber das Problem trat wieder auf. Das Update werden wir mal einspielen, auch wenn ich in den Release Notes keine relevanten Patches finde.

Könntest testweise die Firewall Optimierung umstellen, Verbindung werden dann schneller oder weniger schnell geschlossen


Dennoch finde ich so viele Verbindung bei 30 Clients sehr komisch
(Unoffial Community) OPNsense Telegram Group: https://t.me/joinchat/0o9JuLUXRFpiNmJk

PM for paid support

Daran haben wir auch schon gedacht. :-) Firewall Optimierung ist schon auf aggressiv, aber hat leider auch nichts gebracht.

Nur Mal als Vergleich

Aktuell sind 15 Clients am laufen und die Verbindungstabelle ist
0 % ( 772/804000 )
(Unoffial Community) OPNsense Telegram Group: https://t.me/joinchat/0o9JuLUXRFpiNmJk

PM for paid support

Poste Mal den Output von


    Firewall: Diagnose: pfInfo

(Unoffial Community) OPNsense Telegram Group: https://t.me/joinchat/0o9JuLUXRFpiNmJk

PM for paid support

March 05, 2021, 02:13:49 PM #11 Last Edit: March 05, 2021, 02:24:26 PM by LuciferB
Beim Kunden sind grad um die 30 Nutzer:

Verbindungsstatustabellengröße: 0 % ( 3147/1630000 )

Info
Status: Enabled for 2 days 23:04:20           Debug: Urgent

Hostid:   0xafc25e2b
Checksum: 0xf79f67eb4c3fcb4b0c50932af0c41ecb

Interface Stats for ix2               IPv4             IPv6
  Bytes In                     10029821769            81000
  Bytes Out                    14800937725                0
  Packets In
    Passed                        17772216             1125
    Blocked                          78457                0
  Packets Out
    Passed                        21357692                0
    Blocked                              0                0

State Table                          Total             Rate
  current entries                     3620               
  searches                       645901133         2524.4/s
  inserts                          2864710           11.2/s
  removals                         2861090           11.2/s
Source Tracking Table
  current entries                       99               
  searches                         1808477            7.1/s
  inserts                            33511            0.1/s
  removals                           33411            0.1/s
Counters
  match                            3676979           14.4/s
  bad-offset                             0            0.0/s
  fragment                              35            0.0/s
  short                                  1            0.0/s
  normalize                              4            0.0/s
  memory                                 0            0.0/s
  bad-timestamp                          0            0.0/s
  congestion                             0            0.0/s
  ip-option                              0            0.0/s
  proto-cksum                            0            0.0/s
  state-mismatch                      1212            0.0/s
  state-insert                         996            0.0/s
  state-limit                            0            0.0/s
  src-limit                         493813            1.9/s
  synproxy                               0            0.0/s
  map-failed                             0            0.0/s
Limit Counters
  max states per rule                    0            0.0/s
  max-src-states                    493813            1.9/s
  max-src-nodes                          0            0.0/s
  max-src-conn                           0            0.0/s
  max-src-conn-rate                      0            0.0/s
  overload table insertion               0            0.0/s
  overload flush states                  0            0.0/s


Memory:
states        hard limit  1630000
src-nodes     hard limit  1630000
frags         hard limit     5000
table-entries hard limit   200000


Timeouts:
tcp.first                    30s
tcp.opening                   5s
tcp.established           18000s
tcp.closing                  60s
tcp.finwait                  30s
tcp.closed                   30s
tcp.tsdiff                   10s
udp.first                    60s
udp.single                   30s
udp.multiple                 60s
icmp.first                   20s
icmp.error                   10s
other.first                  60s
other.single                 30s
other.multiple               60s
frag                         30s
interval                     10s
adaptive.start                0 states


Interfaces (Auszug mit Daten):
igb2
Cleared:     Tue Mar  2 15:19:21 2021
References:  21               
In4/Pass:    [ Packets: 192978482          Bytes: 166651025391       ]
In4/Block:   [ Packets: 204663             Bytes: 15571530           ]
Out4/Pass:   [ Packets: 122808251          Bytes: 57884475199        ]
Out4/Block:  [ Packets: 958                Bytes: 73282              ]
In6/Pass:    [ Packets: 0                  Bytes: 0                  ]
In6/Block:   [ Packets: 0                  Bytes: 0                  ]
Out6/Pass:   [ Packets: 5                  Bytes: 416                ]
Out6/Block:  [ Packets: 0                  Bytes: 0                  ]

ix2
Cleared:     Tue Mar  2 15:19:21 2021
References:  23               
In4/Pass:    [ Packets: 17619834           Bytes: 9937065660         ]
In4/Block:   [ Packets: 78408              Bytes: 10590670           ]
Out4/Pass:   [ Packets: 21141428           Bytes: 14671161166        ]
Out4/Block:  [ Packets: 0                  Bytes: 0                  ]
In6/Pass:    [ Packets: 1122               Bytes: 80784              ]
In6/Block:   [ Packets: 0                  Bytes: 0                  ]
Out6/Pass:   [ Packets: 0                  Bytes: 0                  ]
Out6/Block:  [ Packets: 0                  Bytes: 0                  ]

ix2_vlan5
Cleared:     Tue Mar  2 15:19:18 2021
References:  26               
In4/Pass:    [ Packets: 105725665          Bytes: 48708567288        ]
In4/Block:   [ Packets: 522930             Bytes: 65087619           ]
Out4/Pass:   [ Packets: 172353450          Bytes: 152699979591       ]
Out4/Block:  [ Packets: 6                  Bytes: 4656               ]
In6/Pass:    [ Packets: 131                Bytes: 9432               ]
In6/Block:   [ Packets: 0                  Bytes: 0                  ]
Out6/Pass:   [ Packets: 0                  Bytes: 0                  ]
Out6/Block:  [ Packets: 0                  Bytes: 0                  ]

So, jetzt läuft seit einer Woche die neueste Version von OPNsense und heute ist es wieder passiert. Das komplette Netzwerk ist wieder eingefroren. Sowohl von drinnen ist kein Zugriff auf das Internet möglich und von draußen kommt man auch nicht mehr ins Netz. Die Fritzbox wurde wieder neu gestartet und nach ein paar Minuten hat sich alles wieder gefangen.

Hat noch einer eine Idee?

Quote from: LuciferB on March 16, 2021, 11:12:16 AM
Die Fritzbox wurde wieder neu gestartet und nach ein paar Minuten hat sich alles wieder gefangen.
warum hast du die Fritzbox neugestartet?

leider habe ich keinen grafischen netzwerkplan gesehen, bitte einen anhängen
Internet: Willy.tel Down: 1Gbit/s, UP: 250Mbit/s Glasfaser  |
Router/Firewall: pfSense+ 23.09  |
Hardware: Netgate 6100

Die Fritzbox wird neu gestartet, weil sich dadurch scheinbar das Netzwerk beruhigt und danach wieder alles funktioniert bis der nächste Peak von 3500 States erzeugt wird und wieder alles hängt.

Anbei der Netzwerkplan:

      WAN / Internet
            :
            : Fiber/ LWL
            :
      .-----+-----.
      |  Gateway  |  Fritzbox 5490 Fiber (10.10.10.2)
      '-----+-----'
            |
        WAN | (10.10.10.1 Exposed Host/ DMZ)
            |
      .-----+------.
      | OPNsense   |
      '-----+------'
            |
        LAN         | 192.168.178.1/23
        MITARBEITER | 10.44.0.1/21 (VLAN 5)
            |
      .-----+------.
      | LAN-Switch |
      '-----+------'
            |
            |
     +---------------+
     |               |
     |  ACCESSPOINT  |
     |     WLAN      |
     |     VLAN5     |
     +------+--------+
            |
            |
   ...-----+------... (Clients)