Як я зламав (половину) своєї мережі?


11

Я шукаю поради після події, щоб ця подія не повторилася.

У нас є мережеве ядро ​​з двох комутаторів Cisco 4500x, налаштованих на надмірність VSS. З них у нас є пристрої iSCSI, наш Bladecenter HP для нашої vSphere, а також сукупні посилання на наші комутатори доступу користувачів та пара комутаторів 4948e для мідних пристроїв у нашій серверній кімнаті. У 4948es у нас є пара 2960 комутаторів для двох ліній провайдера і пара ASA як брандмауери. Досить пристойне надмірність, за винятком багатьох пристроїв, які підключаються до 4948e, мають лише поодинокі NIC - лише стільки, що ми можемо зробити.

Ми готуємося замінити наші поточні комутатори доступу (старі Extreme) на Meraki. Ми також впроваджуємо додатки Меракі, щоб замінити наш нинішній Аруба. Частина бездротового проекту включає створення нових VLAN та підмереж для управління AP та гостьового бездротового зв'язку.

У нас було дві визначені VLAN (20 і 40) на 4500x, які ніде не використовувались - підтвердили, що підмережі порожні, немає портів, що використовують їх, і т. Д. Я перейшов у 4500x і видав " no interface vlan 20", а потім відновив його з підмережею Я хотів. Потім я додав його до двох порту 10 Гбіт, які підключені до Meraki

switchport trunk allowed <previous list plus two VLANs above plus existing wireless VLAN>

Я помітив, що 20 та 40 VLAN були відключені, тому я видав no shutdownїх. У той момент я втратив доступ до Merakis, тому зрозумів, що не додав VLAN до інтерфейсу каналу порту для цього посилання.

Половина нашого середовища в цей момент стала недосяжною

Наше інтернет-посилання вийшло надзвичайно хитро. Наші телефони Voya VoIP не змогли набрати або вийти. У нас є кілька підключених міддю пристроїв iSCSI, які стали недоступними - відключення нічого не було для користувачів, але наші резервні копії та архів пошти вплинули. Я зайшов у серверну кімнату і відключив Merakis від 4500x (відключив обидва порти 10Gb волокон), якщо я якось створив цикл - жодних змін. Я визнаю, що просто дивився на це деякий час.

Я підтягнув Orion і зазначив, що один з наших зовнішніх комутаторів (Cat2960) і один з наших ASA-парі також були вниз. Мабуть, у нас були певні часткові втрати підключення до локальної мережі, але пара ASA також пов'язана між собою кросовер, і їхні посилання не знижувались, тому вони не переходили до того, що могли досягти наші внутрішні пристрої. Я вимкнув "вниз" ASA і Інтернет знову став доступним.

Я зателефонував TAC, і через пару годин боротьби з техніком, який постійно перебирав конфігурацію кожного порту для кожного збитого хоста, я показував його на 4500x, я ввійшов до одного з наших комутаторів 4948e і показав, як він не може пінг-речі які були безпосередньо підключені та підняті - один із наших мідних пристроїв iSCSI на базі Windows, інтерфейс iLO на нашому блейцентрі тощо.

Він переглянув журнали і нічого не знайшов, але в цей момент він сказав: "Схоже на помилку, навіть якщо я не бачу цього в журналах", тому ми перезавантажили 4948e і все його безпосередньо -з'єднані хости повернулися відразу - включаючи кабінет Avaya, тому наші телефони знову почали працювати. У нас все ще виникали проблеми з пристроями з підключенням волокон 4500x - мертвими шляхами, оскільки це все було зайвим. Він хотів енергійно переключити його, але в цьому є всі наші 10 Гбіт iSCSI, і це зробило б наше середовище vSphere (по суті, всі наші сервери) поганий тиждень. Я розмовляв з ним, щоб зробити витончений перемикач надмірності, який вирішив інші проблеми.

TL; DR: Я вніс досить нешкідливу зміну нашої основи і спричинив жахливу проблему. Чи зробив я помилку конфігурації, яка повинна була б передбачити, що це спричинить - наприклад, якби я не відключив спочатку VLAN та додав їх до портканалу, а потім портів, цього б уникнути? Технолог Cisco цього не сказав; За його словами, з періодичністю понад рік та старими версіями IOS такі ситуації не є дивними.

4500x: Програмне забезпечення Cisco IOS, Програмне забезпечення IOS-XE, Програмне забезпечення комутатора Catalyst 4500 L3 (cat4500e-UNIVERSALK9-M), версія 03.04.05.SG ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ (fc1) ПЗУ: 15.0 (1р) SG10

4948e: Програмне забезпечення Cisco IOS, програмування комутатора Catalyst 4500 L3 (cat4500e-IPBASEK9-M), версія 15.0 (2) SG10, ПРОПОЗИЦІЯ ПРОГРАМНЕ ЗАБЕЗПЕЧЕННЯ (fc1) ПЗУ: 12.2 (44р) SG11

Відповіді:


5

Здається, ви створили штормову трансляцію, і єдиний спосіб зупинити це - вимкнути вимикачі. Переживши це кілька разів, ми застосували кілька найкращих практик, рекомендованих Cisco:

  • Вам слід мати лише розширення VLAN до одного комутатора доступу. На комутаторі доступу можна мати стільки мереж VLAN, скільки вам подобається, але VLAN на будь-якому комутаторі доступу не повинно бути пов'язано з будь-яким іншим комутатором доступу, тільки з комутатором розподілу. Закріпіть це, вручну відключивши всі інші VLAN на стволі за допомогою switchport trunk allowed vlan команди.
  • Перемикач розподілу не повинен мати на ньому ніяких інтерфейсів доступу, лише інтерфейси магістралі розподілу.
  • Не використовуйте VTP (встановіть всі перемикачі в transparentрежим).
  • Ваші інтерфейси доступу повинні мати portfastта bpduguard вмикати їх. Ви можете включити їх у всьому світі для всіх ваших інтерфейсів доступу, і ваш інтерфейс магістралі залишатиметься без змін. Якщо ви випадково підключите комутатор до інтерфейсу доступу, це призведе до того, що інтерфейс увійде в систему err-diableі запобіжить циклі STP.
  • Не підключайте перемикач доступу до іншого перемикача доступу. Підключіть вимикачі доступу лише до комутаторів розподілу, і лише до магістральних інтерфейсів.

Ці найкращі практики дозволять запобігти майже всі проблеми STP та усунуть будь-які проблеми, що трапляються з одним комутатором доступу.


2
Ага так. Колись я сподіваюся працювати в мережі, в якій є достатньо грошей, відсутність "дивних" (тобто L2) додатків, послушна спільнота користувачів та достатня підтримка управління, щоб дотримуватися всіх рекомендованих, здорових практик. Якогось дня.
Рон Трунк

1. Перша пропозиція про VLAN та комутатори доступу, я не впевнений, що розумію.
mfinni

2. Наше "розповсюдження", мабуть, є нашим 4500x, яке в основному є магістралями, але має деякі волокна iSCSI.
mfinni

3. Уникайте VTP - вважайте, не думайте, що сьогодні все встановлено "прозоро"
mfinni

4. portfast та bdpuguard - також переглянуть цю пропозицію
mfinni

3

На додаток до чудової поради Рона Маупіна вище, я також знайшов кілька постів на форумі Cisco про потенційну велику помилку, яку я допустив у процесі. Спершу я додав VLAN до інтерфейсів фізичного порту, а не інтерфейс каналу портів, до якого вони входили. Останнє - це правильний спосіб зробити це, і я, можливо, викликав проблему.


2
Ви можете це зробити так, як ви це зробили, якщо інтерфейси учасників не працюють. Взагалі я виявив, що я хочу, щоб інтерфейси учасників були вниз, робили всю конфігурацію, включаючи канал порту, після чого, як тільки буде все так, як я хочу, піднесіть речі.
Рон Моупін
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.