Я шукаю поради після події, щоб ця подія не повторилася.
У нас є мережеве ядро з двох комутаторів Cisco 4500x, налаштованих на надмірність VSS. З них у нас є пристрої iSCSI, наш Bladecenter HP для нашої vSphere, а також сукупні посилання на наші комутатори доступу користувачів та пара комутаторів 4948e для мідних пристроїв у нашій серверній кімнаті. У 4948es у нас є пара 2960 комутаторів для двох ліній провайдера і пара ASA як брандмауери. Досить пристойне надмірність, за винятком багатьох пристроїв, які підключаються до 4948e, мають лише поодинокі NIC - лише стільки, що ми можемо зробити.
Ми готуємося замінити наші поточні комутатори доступу (старі Extreme) на Meraki. Ми також впроваджуємо додатки Меракі, щоб замінити наш нинішній Аруба. Частина бездротового проекту включає створення нових VLAN та підмереж для управління AP та гостьового бездротового зв'язку.
У нас було дві визначені VLAN (20 і 40) на 4500x, які ніде не використовувались - підтвердили, що підмережі порожні, немає портів, що використовують їх, і т. Д. Я перейшов у 4500x і видав " no interface vlan 20
", а потім відновив його з підмережею Я хотів. Потім я додав його до двох порту 10 Гбіт, які підключені до Meraki
switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>
Я помітив, що 20 та 40 VLAN були відключені, тому я видав no shutdown
їх. У той момент я втратив доступ до Merakis, тому зрозумів, що не додав VLAN до інтерфейсу каналу порту для цього посилання.
Половина нашого середовища в цей момент стала недосяжною
Наше інтернет-посилання вийшло надзвичайно хитро. Наші телефони Voya VoIP не змогли набрати або вийти. У нас є кілька підключених міддю пристроїв iSCSI, які стали недоступними - відключення нічого не було для користувачів, але наші резервні копії та архів пошти вплинули. Я зайшов у серверну кімнату і відключив Merakis від 4500x (відключив обидва порти 10Gb волокон), якщо я якось створив цикл - жодних змін. Я визнаю, що просто дивився на це деякий час.
Я підтягнув Orion і зазначив, що один з наших зовнішніх комутаторів (Cat2960) і один з наших ASA-парі також були вниз. Мабуть, у нас були певні часткові втрати підключення до локальної мережі, але пара ASA також пов'язана між собою кросовер, і їхні посилання не знижувались, тому вони не переходили до того, що могли досягти наші внутрішні пристрої. Я вимкнув "вниз" ASA і Інтернет знову став доступним.
Я зателефонував TAC, і через пару годин боротьби з техніком, який постійно перебирав конфігурацію кожного порту для кожного збитого хоста, я показував його на 4500x, я ввійшов до одного з наших комутаторів 4948e і показав, як він не може пінг-речі які були безпосередньо підключені та підняті - один із наших мідних пристроїв iSCSI на базі Windows, інтерфейс iLO на нашому блейцентрі тощо.
Він переглянув журнали і нічого не знайшов, але в цей момент він сказав: "Схоже на помилку, навіть якщо я не бачу цього в журналах", тому ми перезавантажили 4948e і все його безпосередньо -з'єднані хости повернулися відразу - включаючи кабінет Avaya, тому наші телефони знову почали працювати. У нас все ще виникали проблеми з пристроями з підключенням волокон 4500x - мертвими шляхами, оскільки це все було зайвим. Він хотів енергійно переключити його, але в цьому є всі наші 10 Гбіт iSCSI, і це зробило б наше середовище vSphere (по суті, всі наші сервери) поганий тиждень. Я розмовляв з ним, щоб зробити витончений перемикач надмірності, який вирішив інші проблеми.
TL; DR: Я вніс досить нешкідливу зміну нашої основи і спричинив жахливу проблему. Чи зробив я помилку конфігурації, яка повинна була б передбачити, що це спричинить - наприклад, якби я не відключив спочатку VLAN та додав їх до портканалу, а потім портів, цього б уникнути? Технолог Cisco цього не сказав; За його словами, з періодичністю понад рік та старими версіями IOS такі ситуації не є дивними.
4500x: Програмне забезпечення Cisco IOS, Програмне забезпечення IOS-XE, Програмне забезпечення комутатора Catalyst 4500 L3 (cat4500e-UNIVERSALK9-M), версія 03.04.05.SG ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ (fc1) ПЗУ: 15.0 (1р) SG10
4948e: Програмне забезпечення Cisco IOS, програмування комутатора Catalyst 4500 L3 (cat4500e-IPBASEK9-M), версія 15.0 (2) SG10, ПРОПОЗИЦІЯ ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ (fc1) ПЗУ: 12.2 (44р) SG11