На жаль, схоже, що ми можемо не досягти того, що було в заявці, але щоб отримати деяке значення від цього випадку, я хотів створити референтну відповідь. Це орієнтоване на VMware та управління віртуальним шаром. Дуже багато адміністраторів є відокремленими, і вони не можуть швидко отримати доступ до гостей або сховища, і це для них :)
http://support.seagate.com/kbimg/flash/laptop/Laptop.swf, здається, є найбільш близькою до фактичної програми, яку знайшов @MosheKatz.
Якщо це сталося в майбутньому, слід слід так:
- Ви помітили, що деякі, але не всі VM розбилися. Ви підозрюєте, що це пов’язано з проблемою зберігання (як це, як правило, є найбільш вірогідною причиною)
- Спочатку спробуйте виділити загальний фактор. Чи всі розбиті віртуальні машини поділяють однаковий сховище даних? У цьому випадку вони були, але деякі машини були в порядку, тому ми виключали очевидні проблеми з обладнанням.
- Перевірте всі розбиті відеомагнітофони, щоб побачити, чи був загальний фактор (час, функція тощо). У цьому випадку не було.
Перевірте інші незвичайні події. Щось тут підняли прапор:
- Сховище NFS було тонкозахисним (на рівні масиву). Це означає, що хоча напр. 200 Гб представлено хостам ESXi, насправді доступно лише 100 ГБ. Однак, лише цей масив має ці знання. Ми знайшли, що ряд візуальних машин було призупинено, оскільки у них не вистачало місця на диску. Хоча це, можливо, і було першопричиною, тому нашим кулаковим заходом було виділити більше місця на задньому боці, щоб усунути це як проблему.
Після того, як це було вирішено (проста зміна інтерфейсу користувача), і призупинені VM успішно перезапустилися, ми повернулися до початкової проблеми. Ми встановили віртуальні диски від зламаних віртуальних машин до робочої ВМ і побачили, що на дисках немає таблиці розділів. У нас не було доступного шестигранного перегляду, тому довелося вважати, що диски тепер порожні.
Система моніторингу оповістила про новий ВМ, який просто не реагував. Це було чудово, оскільки навантаження VM за минулі хвилини виявилася невідповідною через проблему з дисковим простором, тому факт, що цей новий VM був знайдений швидко, був ознакою хорошого адміністрування моніторингу.
Ми відкрили консоль і перевірили гостя, і побачили вищезгадане захоплення екрана.
- На цьому етапі я зайшов до кімнати чату з помилками сервера, щоб перевірити, чи можна ідентифікувати програму, в той час як мій колега зберігання перевіряв усі журнали та події віртуального рівня, щоб переконатися, що в нашій області не працює операція зберігання даних.
- Що ми повинні були зробити, це призупинити VM, дозволити видалити файл призупинення та проаналізувати дамп, щоб перевірити, чи може бути визначена запущена програма. Призупиніть VM до основного PDF VMware KB
Зрештою, ми знали, що інструменти віртуальної інфраструктури не повідомили б гостя, як це робилося вище. Ми могли побачити, що ISO не встановлено, і жодні події, зафіксовані проти VM. Ми могли бачити, що VM не був «зарядженим силовим циклом», а лише м'яким перезапуском (це непомітно для основної інфраструктури). Ми знали, що це не сторона зберігання, як це вже було виключено. Ми підозрювали, що це не було автоматизовано, оскільки це відбувалося протягом декількох годин на конкретних ВМ. Ми здогадалися, що це не шкідливо, бо чому консольний звіт Disk Wipe буде очищений, якщо він був :)
Отже, висновком було стерти диск, ініційований користувачем. Це стосується мого розслідування, але я сподіваюся, що ви вважаєте це корисним.
Вивчені уроки:
- Створіть резервну копію та протестуйте реставрацію
- Переконайтесь, що всі користувачі, зокрема користувачі адміністратора, знають, що вони працюють у тонкому захищеному середовищі, і повинні уникати нічого подібного до форматування дисків, що виписуються (тобто завантаження записів 1
- Створити хорошу систему моніторингу.
- І нове для мене: у будь-якому великому віртуальному середовищі мати готовий інструмент VM, навіть вимкнений, із встановленими інструментами діагностики; продуктивність, мережеве зберігання. Якби це було доступно, ми могли б встановити і виконати шестигранний дамп на пошкодженому диску, щоб побачити, чи справді він порожній, чи просто не вистачає mbr. Ми також могли бачити, якби це було виписано з 1-ї.