UDLD, ASIC, STP - Kaputt
Ich habe ja immer das UDLD Feature bei Cisco belächelt. Was soll das auf einem Link zu erkennen das dieser nur unidirektional Funktioniert. "Was soll schon schief gehen" ist da das Motto des Tages.
Heute war es dann soweit - Ich stehe am Whiteboard und Schule zwischen Tür und Angel über 802.1q, 802.1p, 802.1ad, LACP, Spanning Tree, MAC Learning etc - Plötzlich steht die Realität hinter mir und tippt mir auf die Schulter.
Wie das so ist bei einem L2 Ausfall - Man wünscht sich konsequent Out-Of-Band Management gemacht zu haben aber natürlich ist das nicht so konsequent wie es sein könnte.
Nach einigem Gefluche und 15 Hops später shutten wir mal diverse Links die alle sich über MAC Flapping beschweren.
Der Fehler lässt sich zügig auf ein Switchpaar eingrenzen aber es muss deutlich mehr abgeschaltet werden um die Situation zu beruhigen als man so meinen würde.
Nachdem es alles wieder ruhiger wird stellt sich raus.
In einem der Coreswitche ist der erste ASIC kaputt und hat zum einen einen Linkmember eines Portchannels in den Abgrund gerissen, wie auch 2 Kunden trunk ports. Der Effekt ist das wir zwar Input Packets haben, aber alle Output Packets als dropped gezählt werden und nicht den Switch verlassen. D.h. auch STP funktioniert nicht. Wir haben einen unidirektionlen Link der dann zu einem L2 Loop führt. Natürlich ist von der Symptomatik auch nicht der kaputte Switch der Verursacher sondern der Nachbar der nicht mehr in der Lage ist den Loop zu erkennen.
Den ganzen Tag dann mal Auswirkungen und Erkenntnisse des Ausfalls
nachgearbeitet no logging console
ist auch mein Froind und gefixed.
Die nächsten Tage werden dann mal die Provisionierungsscripte nachgezogen die entsprechend auf inter-switch-links UDLD Deployen.
Spannend ist das mit dem 802.3ae das ganze scheinbar mandatory wird mit der unidirectional Link detection.