Питання пропускної спроможності мережі (ARP)


9

У невеликому коледжі, де я працюю, виникають дуже дивні проблеми з мережею. Я шукаю тут будь-яку пораду чи ідеї. Нам було добре влітку, але біда почалася через кілька днів після того, як студенти повернулися до кампусу, що діють на осінній термін.

Симптоми

Основним симптомом є те, що доступ до Інтернету буде працювати, але це дуже повільно ... часто до моменту очікування. Наприклад, типовий результат Speedtest.net поверне завантаження .4Mbps, але дозволить швидкість завантаження від 3 до 8 Мбіт / с. Менші симптоми можуть включати сильно обмежену продуктивність передачі даних на наш файловий сервер і з нього, або навіть у деяких випадках неможливість увійти до комп'ютера (не може дійти до контролера домену). Випуск перетинає кілька власних властей і впливає на пристрої майже на кожній владі.

Проблема стосується не всіх машин у мережі. Непорушена машина зазвичай бачить принаймні 11 Мбіт / с, завантажену з speedtest.net, і, можливо, набагато більше, залежно від більшої структури трафіку в кампусі на той час.

Існує одна варіація щодо більшого питання. У нас є один влан, де користувачі взагалі не змогли увійти в майже всі машини. ІТ-персонал увійде в систему за допомогою облікового запису місцевого адміністратора (або в деяких випадках кешованих облікових даних), а звідти випуск / оновлення або пінг-шлюз дозволить машині працювати ... деякий час. Ускладнення цього питання полягає в тому, що ця vlan охоплює наші комп'ютерні лабораторії, які використовують програмне забезпечення під назвою Deep Freeze для повного скидання жорстких дисків після перезавантаження. Це може бути те саме, що проявляється по-різному через несвіжі дані на машинах, які протягом тижнів не змінювали постійно інформацію про низький рівень. Однак нам вдалося вирішити це, створивши новий влан і перемістивши лабораторії до нового влан оптом.

Підпитки

Врешті-решт ми помітили, що у всіх працюючих машин були недавні оренда dhcp. Ми можемо передбачити, коли машина стане "повільною", спостерігаючи, коли оновлює dhcp для поновлення. Ми грали з тим, щоб встановити термін оренди дуже короткий для тестового влану, але все, що було зроблено, це усунути нашу здатність передбачати, коли машина стане повільною. Машини зі статичними IP-адресами майже завжди працюють нормально. Вручну вивільнення / поновлення адреси ніколи не призведе до того, що машина стане повільною. Насправді в деяких випадках цей процес був зафіксованиймашина в такому стані. Однак більшість часу це не допомагає. Ми також помітили, що мобільні машини на зразок ноутбуків, швидше за все, стануть повільними, коли вони перейдуть на нові влани. Бездротова мережа в кампусі поділяється на "зони", де кожна зона відображає невеликий набір будівель. Переїзд до нової будівлі може розмістити вас у зоні, тим самим змусивши вас отримати нову адресу. Максимальна ймовірність того, що машина, що відновиться до режиму сну, також буде повільною.

Пом'якшення наслідків

Іноді, але не завжди, очищення кеш-пам'яті arp на здійсненій машині дозволить знову працювати нормально. Як уже було сказано, вивільнення / оновлення IP-адреси локальної машини може виправити цю машину, але це не гарантується. Пінгінг шлюзу за замовчуванням також іноді може допомогти для повільної машини.

Що, здається, найбільше допомагає пом’якшити проблему - це очищення кеш-пам'яті arp на нашому основному комутаторі шару-3. Цей комутатор використовується для нашої системи dhcp як шлюз за замовчуванням для всіх vlans, і він обробляє маршрутизацію між vlan. Модель - 3Com 4900SX. Щоб спробувати пом'якшити проблему, у нас встановлений тайм-аут кешу на комутаторі аж до мінімально можливого часу, але це не допомогло. Я також склав сценарій, який працює кожні кілька хвилин, щоб автоматично підключитися до комутатора та скинути кеш. На жаль, це не завжди працює, і навіть може призвести до того, що деякі машини за короткий час закінчуються у повільному стані (хоча, здається, вони виправляються через кілька хвилин). Наразі у нас є запланована робота, яка працює кожні 10 хвилин, щоб змусити основний перемикач очистити це кеш ARP, але це далеко не ідеально або бажано.

Відтворення

Зараз у нас є тестова машина, яку ми можемо примусити уповільнений стан за бажанням. Він підключений до комутатора з портами, встановленими для кожного з наших вланів. Ми робимо машину повільно, підключаючись до різних вланів, а після нового або двох з'єднань буде повільним.

Також у цьому розділі варто зазначити, що це сталося раніше на початку попередніх термінів, але в минулому проблема пішла самостійно через кілька днів. Це вирішилось перед тим, як ми мали можливість провести велику діагностичну роботу ... звідси, чому ми дозволили йому так довго затягуватися в термін цього разу; очікував, що це буде недовговічною ситуацією.

Інші фактори

Варто зазначити, що у нас було близько півдюжини вимикачів, які просто вийшли з ладу за останній рік. В основному це 3Coms епохи 2003/2004 років (в основному 4200), які були введені приблизно в один і той же час. Вони все ще повинні покриватися гарантією, купити HP зробило отримання сервісу дещо складним. Переважно в джерелах виходу з ладу джерел живлення, але в декількох випадках ми використовували джерело живлення від перемикача з невдалою материнською платою, щоб повернути вимикач з несправним джерелом живлення. Зараз у нас є пристрої ДБЖ на всіх, крім трьох з чотирьох комутаторів, але це було не так, коли я почав два з половиною роки тому. Суворі бюджетні обмеження (ми знаходилися в списку фінансово складних установ Еда пару років тому) змусили мене шукати заміни Netgear і TrendNet,

Варто також зазначити, що велика зміна в нашій мережі цього літа була міграцією з єдиного бездротового SSID між кампусом на згаданий раніше підхід. Я не думаю, що це джерело питання, як я вже казав: ми це бачили і раніше. Однак можливо, це загострює проблему, і це може бути значною мірою причиною того, що її так важко виділити.

Діагностика

Спочатку нам здавалося зрозумілим, враховуючи терміни та постійний характер проблеми, що джерелом випуску є заражений (або зловмисний) студентський апарат, який здійснював отруєння кешем ARP. Однак неодноразові спроби ізолювати джерело не вдалися. Ці спроби включають численні сліди пакетів проводів, і навіть короткі періоди роботи в режимі офлайн. Ми навіть не змогли знайти куріння гарматичного ARP. Моя поточна найкраща здогадка - це перевантажений або несправний основний комутатор, але я не впевнений, як перевірити це, і вартість його заміни сліпо зростає.

Знову будь-які ідеї цінували.

Оновлення:
Основний перемикач замінено. Через 4 дні все працює добре ... але я зачекаю два тижні, перш ніж виклик буде вирішено.


Ви бачите втрату пакетів на постраждалих машинах? Якщо так, то де відбувається втрата пакету? mtrможе бути тут корисним.
EEAA

3
Це виглядає підозріло, ніби один з ваших комутаторів несправний, пошкоджує його арп-таблиці та поширює пошкоджені записи на інші комутатори. Звідси часткове полегшення, коли таблиці очищаються на ядрі L3. Настійно рекомендую скинути ВСІ комутатори перед подальшими спробами усунення несправностей. За допомогою трохи удачі це повністю усуває проблему. Якщо комутатор дійсно несправний, то, сподіваємось, не вдасться його діагностики включення після перезавантаження. PS Незначні коливання в електромережі можуть мати такий ефект. Якщо ваші комутатори не ввімкнено, це може бути першопричиною.
Тонні

@ErikA у нас є деякі втрати пакетів. Я побачу, чи зможу я отримати кращий слід ... але втрата пакета відбувається з кожного місця в кампусі, тобто єдиною загальною точкою з'єднання є основний комутатор і комутатор, підключений до наших серверів.
Джоел Коель

1
@Tonny Ми скинули всі (ну, майже всі) комутатори щонайменше двічі в рамках усунення несправностей. Це, здавалося, зменшило (не усунуло) скарги приблизно на день / півтора дня. У нас близько 40 блоків комутацій, з пристроями ДБЖ для всіх, крім трьох-чотирьох. Головне, що всі наші комутатори були встановлені приблизно в один і той же час, і у нас було 6 відвертих несправностей за останній рік, тому довіри до цього є багато.
Joel Coel

1
Я не маю жодного досвіду 3com, але, можливо, є спосіб обмежити кількість мак-адрес, отриманих з даного порту. Ви можете зробити це на всіх портах доступу для учнівських машин, якщо хтось переливає мак, перетворюючи ваші комутатори в концентратори.
Bad Dos

Відповіді:


2

Джоель,

Оскільки у вас є налаштування стволів і ви можете дублювати проблему за бажанням. Встановіть Wireshark на ноутбук і віддзеркаліть / перетягніть порт по висхідній лінії зв'язку. Якщо ви бачите швидкість пакету понад 10 000 або використання портів близько максимальної швидкості, у вас є проблеми.

Можливо, у вас погана проблема з апаратним / розкидним деревом. Зазвичай я знайшов користувачів, що підключають обидва мікрофони на своїй машині, "щоб отримати більше пропускної здатності".

Зазвичай для проблем із розстежуваним деревом ви можете увімкнути виявлення циклу або транслювати обмеження на порту від вашого постачальника. Це вб'є будь-який порт із знайденою петлею. Ви також можете ввімкнути "захист bpdu", що означає відключити порт, на який було отримано bpdu, та видалити помилку на приймачі пасток syslog / snmp.

Джо


1

Я вже бачив подібні до цього проблеми, і це був цикл в локальній мережі, який викликає хаос і насичення всієї підмережі (імовірно, від трансляційного трафіку через комутатор, який бачить власний MAC на додатковому порті).

EDIT: Крім того, це часто зустрічається в навчальних закладах (дві мої попередні роботи з систематичною системою), оскільки маленькі кохані люблять возитися з патч-кабелями / розетками ...


Ми витратили багато часу на перевірку саме цього, але в підсумку це виключили.
Joel Coel

0

Мені здається, що у вас погана апаратура, яка спричиняє трансляцію бурі. Використовуйте Wireshark для перегляду трансляцій та пошуку хоста, який доставить вам проблеми ...


Це дуже навряд чи буде, якщо деякі машини працюють нормально, а інші - ні. Буря, що транслюється, за короткий час приведе всю VLAN на коліна.
Пол Гір

0

Ідея Джо хороша, але, враховуючи, що це, швидше за все, не буде штормова трансляція, яка створює вашу проблему (я думаю, ви на правильному шляху з отруєнням кешем ARP або подібною проблемою; це може бути навіть конфлікт IP-адреси), це, ймовірно, не вирішить проблему.

Пов’язана методика використання динамічної перевірки ARP та DHCP, якщо ваші комутатори підтримують її. Якщо ввімкнути це, комутатори будуть дивитися транзакції DHCP і дозволятимуть лише записи ARP, які відповідають відомим записам у базі даних DHCP, або ті, які ви вказали вручну.

Якщо у ваших комутаторах немає цієї функції, ще одним варіантом її відстеження є архівний годинник утиліти Linux - він відслідковує всі запити ARP та повідомляє, коли помічає зміни IP-MAC-відображення.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.