"Пикове" використання процесора на контролерах домену


25

У нас є два контролери домену Windows Server 2008 SP2 (на жаль, не 2008 R2) у невеликому домені клієнта 150, які демонструють дуже «пікове» використання процесора. Обидва контролери домену проявляють однакову поведінку і розміщуються на vSphere 5.5.0, 1331820. Кожні дві-три секунди використання процесора підскакує до 80-100% і потім швидко падає, залишається низьким на секунду-дві, а потім стрибає вгору знову.

Продуктивність роботи менеджера завдань DC3


Перегляд історичних даних про ефективність віртуальної машини вказує на те, що ця умова триває принаймні рік, але частота зросла з березня.

Продуктивність віртуальної машини DC3



Процесом порушення є SVChost.exe, який обертає DHCP-клієнт (dhcpcsvc.dll), EventLog (wevtsvc.dll) та LMHOSTS (lmhsvc.dll). Я, звичайно, не фахівець з питань внутрішніх справ Windows, але я, здається, не міг знайти нічого особливо неприємного під час перегляду процесу з процесором Explorer, окрім того, що, здається, EventLog викликає безліч дзвінків RpcBindingUnbind .

Провідник процесів DC3 для SVCHost.exe



На даний момент я не в каві та ідеях. Як мені продовжувати вирішувати цю проблему?


Просто плюйболінг тут: 1. Чи є у вас система моніторингу, яка запитує журнали подій в DC? 2. Чи ввімкнено будь-який тип аудиту, який може призвести до великої активності Журналу подій у DC?
joeqwerty

1
Захотіли прозвучати, коли ця тема вискакувала під час пошуку в Google Журналі подій високого ЦП. Ця проблема все ще присутня на сервері 2012. Щойно вирішено таку саму проблему в сервері сервера 2012 DC. Перевірте розміри файлів журналу. Шлях до журналу за замовчуванням -% SystemRoot% \ System32 \ Winevt \ Logs \ Перезаписати радіо опцію, може виникнути проблеми з більшими розмірами файлів журналу. Я встановив моє значення «Архів журналу», коли воно заповнене та перевернуто
KraigM

Для тих, хто приїжджає сюди з Google, ця проблема служби журналів подій стосується також і немеханічних систем Windows Server. У моєму випадку достатня кількість користувачів з mmc.exe(вірогідно, вікном «Менеджер сервера») відкритим також досягла регулярних шипів.
Миколай

Відповіді:


25

TL; DR: Файл EventLog був заповнений. Переписування записів є дорогим та / або не дуже реалізованим у Windows Server 2008.


На @pk. і на пропозицію @joeqwerty, і поцікавившись, я вирішив, що, швидше за все, здається, що забута реалізація моніторингу скребила журнали подій.

Я встановив мережевий монітор Microsoft на одному з контролерів домену і почав фільтрувати MSRPC за допомогою ProtocolName == MSRPCфільтра. Трафіку було багато, але це було все між RODC нашого віддаленого сайту, і, на жаль, не використовувався той же порт призначення, що і процес прослуховування EventLog. Чорт! Там іде ця теорія.

Щоб спростити речі та полегшити запуск програмного забезпечення для моніторингу, я вирішив зняти службу EventLog від SVCHost. Наступна команда та перезавантаження контролера домену присвячує один процес SVCHost службі EventLog. Це робить розслідування трохи простішим, оскільки у вас не є декілька послуг, приєднаних до цього PID.

SC config EventLog Type= own

Потім я вдався до ProcMon і встановив фільтр, щоб виключити все, що не використовувало цей PID. Я не бачив тонни невдалих спроб EventLog для відкритих відсутніх ключів реєстру , як зазначено в якості можливої причини тут ( по- видимому , погані додатки можуть зареєструватися в якості джерел подій у вкрай поганих відносинах). Передбачувано я побачив багато вдалих записів ReadFile журналу подій безпеки (C: \ Windows \ System32 \ WinEvt \ Logs \ Security.evtx).

ReadFile Security.evtx

Ось погляд на стек про одну з таких подій: RpcBindingUnbind

Ви помітите спочатку RPCBinding, а потім RPCBindingUnbind. Таких було багато . Як тисячі в секунду. Або Журнал безпеки дійсно зайнятий, або щось не працює з Security.evtxжурналом.

У EventViewer Журнал безпеки записував лише між 50-100 подій в хвилину, що здавалося доречним для домену такого розміру. Чорт! Існує теорія номер два, що у нас був якийсь додаток із дуже багатослівним аудитом подій, увімкненим ліворуч у забутому куточку, який все ще пристойно стукає. Ще було зафіксовано чимало (~ 250 000) подій, хоча частота реєстрації подій була низькою. Можливо, розмір журналу?

Журнали безпеки - (клацання правою кнопкою миші) - Властивості ..., а максимальний розмір журналу встановлено для 131 072 Кб, а розмір журналу наразі містив 131 072 КБ. Перевірено перемикач "Переписати події за потребою". Я подумав, що постійне видалення та запис у файл журналу, ймовірно, є важкою роботою, особливо коли він був таким заповненим, тому я вибрав Очистити журнал (я врятував старий журнал на випадок, якщо він нам потрібен для перевірки пізніше) і дозволив службі EventLog створити новий порожній файл. Результат: використання процесора повернулося до нормального рівня близько 5%.


Хороша робота. Також перемістіть TL; DR у верхню частину відповіді?
Златко

Просто FYI ... це просто вдарило до нашої контролери домену, більшість з якої - 2012/2012 R2. Таким чином, схоже, це однаково непогано реалізовано в нових версіях Windows Server.
HopelessN00b

Отже, це моє питання, але я встановив для архіву, коли заповнений, і не надписуйте. Максимальний розмір журналу - 1 ГБ, а поточний - 639 МБ. Наткнувся на те, що робити, крім, можливо, очистити журнал як тест. Це на R2 Std 2008 і впливає на PDC та вторинний постійний струм. Обидва - це ВМ. Мені довелося виділити 2 розетки / 1 ядро ​​для кожного постійного струму, інакше вони будуть прив'язувати 1/1 розподілу і більше не реагувати. Додавання більше оперативної пам’яті нічого не робило. На даний момент він постійно використовує між 60-100% процесора.
Тревіс

Збережено / очищено журнал безпеки. Все ще працює 74% використання процесора.
Тревіс

5

Ви можете переслідувати це, створивши невеликий набір збору даних.

  • Відкрийте Монітор продуктивності та створіть новий визначений користувачем набір колектора даних.
  • Виберіть " Вручну" (без шаблону) та виберіть лише дані трасування події .
  • Додайте службу домену Active Directory: основні дані та збережіть набір.
  • Змініть умову зупинки в розділі Властивості на 1 хвилину.
  • Почніть набір і чекайте.
  • Після завершення конвертуйте збережений .etl файл у .csv за допомогоюtracerpt –l “file.etl” –of CSV
  • Проаналізуйте дані Summary.csv та dumpfile.csv в Excel. Ви можете завантажити цей документ Import-DC-Info.xlsm, щоб допомогти вам у аналізі.

Якщо моя думка правильна, ви побачите, що деякі пристрої (IP: порт) забивають ваш постійний струм.


1

Звичайно, важкий. Окрім того, що просто залишити його в спокої (1 процесор / 50% завантаження .. кого це хвилює?), Ви можете спробувати встановити новий контролер домену і через кілька днів побачити, чи не такий він має таку саму поведінку. Якщо це так, ви можете спробувати зі слідом Wireshark (очевидно, що щось із Мережі викликає це)

Наступне, що спадає на думку - це простий дзвінок до Microsoft


-2

Тревіс, "архів" вам не допоміг. Насправді, навіть очищення журналу подій, коли він був 2/3-й, не допомогло вам. Але "архів" справді допоміг KraigM.

kce: очищено файл "перезаписати" 131 Мб і побачив зниження продуктивності від скажімо 55% o 5%, але ЗАПИТАННЯ: можливо, ви врешті-решт знову побачили високу ефективність, оскільки це може (а) спрацьовувати лише тоді, коли буде досягнуто умова перезапису або (b) це може стати лінійно гіршим, оскільки очищений файл збільшується з розміру 0mb до 131MB.

Деякі бачать це для security.evtx, а одні бачили це в операційному журналі планувальників завдань. Я пропоную повністю видалити AV-файл (який ви використовуєте) та спробувати. Зловмисникам потрібно приховати свої доріжки, і їхні треки вносяться в планові завдання, які вони встановлюють, або входи в систему. Таким чином вони заховатимуть свої треки, ламаючи ручки до цих журналів подій та переписуючи їх, щоб пропустити їхні треки. АВ-студії, можливо, виявляють це помилково, оскільки, якби це було Microsoft, про таке високе використання було б повідомлено, але я бачу лише незначну кількість публікацій під час Гугла. Я також бачу це на сервері 2008 R2 для журналу security.evtx. Немає передплатників журналу подій, немає зовнішніх моніторів. Я спостерігав, як працює декілька AV-сервісів (McAfee), і вони мали дуже низьке загальне використання сервера аж стільки днів, тому я підозрюю, що його видалено і лише частково (можливо, потрібен спеціальний деінсталятор McAfee), і мені цікаво, чи є гачки в послуга McAfee або драйвери фільтрів McAfee, що виконуються (або навіть нормально встановлені), які якимось чином приймають звичайне записування до журналу подій і вирішують у процесі їх фільтрації, що вони повинні перетворити це на повне зчитування всього журналу подій. Повірте мені, сторонні драйвери фільтрів деяких AV-компаній є помилковими і, безумовно, 10000-кратними помилками, ніж впровадження Microsoft журналів подій, що, ймовірно, ідеально. Підсумовуючи, 100% видалення ВСІХ ВАШЕВ І ВИДАЙТЕ, якщо проблема вирішена. Якщо так, співпрацюйте зі своєю AV-компанією, щоб виправити їх AV. Недоцільно робити винятки з файлів для.

Також, використовуючи прокмен, зверніть увагу на виклики WriteFile, оскільки Writefile - це те, що запустить менеджер фільтру прочитати весь файл. У моєму випадку зчитування було ініційовано приблизно через 30 секунд після завершення запису, що може бути задумано. Але це було послідовно, і в моєму випадку файл склав 4 Гб, а читання файлу включало 64 К читання у довжину кожні 64 КБ в довжину, і для цього було використано 35% ЦП. Дуже сумно.


Оновлення 23.03.2016 Я переглянув драйвери фільтрів на цій машині після висновку, що це повинно бути викликано одним з них (механізм журналу подій ніколи не може бути помилковим, або кількість звітів такого роду буде приголомшливою і це не так). Я побачив деяких драйверів фільтрів з AV та від відомої сторонньої компанії, яка підвищує продуктивність диска віртуальної машини з поглядом наперед, читає і запитала їх головного архітектора (який був дуже добрий і милостивий), чи може його продукт надмірно агресивно читати весь журнал подій безпеки (що, очевидно, відбувається за промовою). Це було б корисно для менших журналів безпеки, але не для тих розмірів, про які тут повідомляється. Ні в якому разі він не сказав. Він погодився, що це може бути АВ.

Як я вже казав колезі Azure нижче, у нас немає подальших публікацій з оригінального Плаката, якщо проблема повторно з’явилася після очищення журналу подій, оскільки це поширене і помилкове рішення, оскільки продуктивність з часом погіршується. Це називається "продовження", і я бачу, що з перших рук оригінальне рішення плаката може обдурити тих, хто не продовжує вважати, що вони вирішили проблему. Я теж майже не обдурив. Я очистив журнал подій і покращив ефективність роботи, - але я застосував промоунд і побачив, що проблема буде рости і повільно зростати з часом, поки це не стане проблематичним. Чомусь колега Лазурного різко критикує мене, коли оригінальний плакат не підписався (можливо, загинув, звільнився, кинув службу або зайнявся). Нижній колега Azure вважає, що якщо оригінальний плакат не підписався, це має бути виправлена ​​проблема. Це неприємно і дивовижно, тому що я не можу придумати того, хто настільки високо оцінений технічно, хто зайняв би цю посаду. Прошу вибачення, якщо уколов нерв. Можливо, в моїй активності в іншому просторі в Інтернеті, куди я телефоную людям, я натрапив на його нерви - тут (сервер за замовчуванням) я просто доброзичливий і ділюсь глибокими технічними знаннями, і результат містера Лазура знущається над тим, чи є мій технічний внесок рівним необхідний або є для мого блогу (у мене немає такого блогу). Я поки не збираюся надсилати це посилання на близько півдесятка ключових друзів в Microsoft і запитати їх, що відбувається з цим типом знущань з боку ключового співробітника MSFT, оскільки я особливо орієнтований на те, щоб зацікавити себе громада на увазі, і відповіді, наведені нижче від пана Azure, є кількома словами, неймовірними, життєлюбними, нетерпіння та знущання - що я впевнений, що деяким людям подобається робити іншим. Я спочатку ображався, але переживаю за це і знаю, що пасивні чи активні читачі оцінять те, що я говорю, і оціню мої коментарі. Я стою на 100% поза цим, не враховуючи юридичних причин, чому це десь недоречно чи ні. М. Лазурний, будь ласка, проявляйте доброту і утримуйтесь від того, щоб викладати мої коментарі в поганому світлі. Просто перейміть це і проявіть стриманість, а не коментуйте ще раз. будь ласка, практикуйте доброту і утримуйтесь від того, щоб викладати мої коментарі в поганому світлі. Просто перейміть це і проявіть стриманість, а не коментуйте ще раз. будь ласка, практикуйте доброту і утримуйтесь від того, щоб викладати мої коментарі в поганому світлі. Просто перейміть це і проявіть стриманість, а не коментуйте ще раз.

Гаррі


Здається, ви звертаєтесь до людей, які прокоментували, а не ОП та оригінальне запитання. І ви робите пропозиції, як видалити AV. ОП вже вирішило їх проблему та визначило це як питання журналу подій. Я не вважаю це правильною відповіддю.
Девід Макогон

Це було не вирішено, якщо ви уважно читали плакати та моє резюме. Вам доведеться страждати від цього питання, щоб проаналізувати їхні слова набагато ретельніше, ніж ви це зробили і побачите це. Мені шкода, що ти не можеш цього зробити, і мене суворо судили. Наприклад, ОП заявила, що вона повернулася до 5%, але це легко могло повернутися після очищення журналу, і він не продовжував діяти - адже це сталося з іншим учасником. Тому нічого не було вирішено, оскільки він не підтвердив, що результати залишаються на рівні 5% постійно.
harry

Вибачте Гаррі - це не відповідь; ви заявляєте про клопотання про програмне забезпечення та повідомляєте ОП співпрацювати зі своєю антивірусною компанією. Це чудово підходить для вашого особистого блогу чи статті, але редакція - це не відповідь на питання про дворічну дитину з прийнятою відповіддю, з першопричиною, не пов’язаною з антивірусом.
Девід Макогон

@harry дивно, я знову тут знову намагаюся все це зрозуміти :) Ні AV в системі. Я зробив декілька оновлень Windows і змінив максимальний файл журналу на архів на 500 МБ з 1 ГБ. Навіть на 1 ГБ він перевертався лише один раз на 8 місяців, тоді як мій інший постійний струм згортається зовсім більше. Я дотримувався пропозиції "SC config EventLog Type = own", щоб вибити файл журналу. Після перезавантаження процес evenlog опустився до нижче 1%. "Dhcp та lmhosts", які були приєднані до процесу, також нижче 1% процесора. Я реєстрував лише близько 15 подій безпеки в секунду.
Травіс

Я підозрював, що у агента SSO, у якого я працював, було щось пов’язано з ним, оскільки він мав багато помилок, але відключення послуги не призвело до падіння використання процесора навіть після перезавантаження. Агент SSO резервного копіювання, і процесор все ще низький, тому хто знає.
Травіс
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.