З людей, які керують своїми кластерами (тобто не використовують / платять за Amazon Autoscale, Rightcale, Scalr тощо), як ти керуєш своїми прикладами на EC2 та обробляєш (наприклад) відмову? Мені цікаво, чи більшість людей просто закінчують писати свої власні набір сценаріїв проти API EC2, як я підозрюю.
Це, безумовно, наш підхід: підключити власний моніторинг / перезапуск демона на основі Python Boto, який працює за межами сайту, слухаючи збереження UDP від наших екземплярів. У разі відмови ми робимо знімки томів, реєструємо зображення, запускаємо нові екземпляри, видаляємо старі томи тощо.
Кожен так часто, коли хакують наші сценарії, я думаю, що там повинні бути якісь інструменти з відкритим кодом, які вже вирішують ці проблеми, і які не мають обмежень (скажімо) Scalr, але я завжди повертаюся з Google з порожніми руками. (Такі речі, як Scalr, є досить обмеженими у підтримуваних наборах / версіях / конфігураціях програмного забезпечення та мають спеціалізовані та IMO громіздкі способи маніпулювання цими налаштуваннями.)
Крім того, екосистема Linux-HA / Pacemaker (серцебиття, ldirectord тощо) здається, що вона дійсно не підходить для EC2 . (Але тоді я знайшов це, хоча я не впевнений, що це дійсно якісне рішення).