Ми працювали пару веб-сайтів з інфраструктури Amazons AWS вже близько двох років, і приблизно два дні тому веб-сервер почав знижуватись один-два рази на день, з єдиною помилкою, яку я можу виявити:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
CloudWatch не спрацьовує жодних тривог (CPU / Disk IO / DB Conn). Я спробував зайти на сайт через еластичний IP, щоб пропустити ELB, і отримав таке:
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
Я не бачу нічого незвичайного в журналах apache і переконався, що вони правильно обертаються. У мене немає проблем з доступом до машини, коли вона "вниз" через SSH і переглядаючи список процесів, я бачу 151 apache2 процесів, які здаються мені нормальними. Перезапуск апаша тимчасово усуває проблему. Ця машина працює як просто веб-сервер за ELB. Будь-які пропозиції будуть дуже вдячні.
Середнє використання процесора: 7,45%, Мінімум: 0,00%, Максимум: 25,82%
Середнє використання пам'яті: 11,04%, Мінімум: 8,76%, Максимум: 13,84%
Середнє значення використання заміни: N / A, Мінімум: N / A, Максимум: N / A
Використання дискового простору для / dev / xvda1, встановленого на / середній: 62,18%, мінімум: 53,39%, максимум: 65,49%
Дозвольте мені уточнити, я думаю, що проблема полягає в індивідуальному екземплярі EC2, а не в ELB, я просто не хотів цього виключати, навіть якщо мені не вдалося досягти еластичного IP. Я підозрюю, що ELB просто повертає результати попадання на фактичний екземпляр EC2.
Оновлення: 2014-08-26 Я повинен був оновити це раніше, але "виправлення" було зробити знімок "поганого" екземпляра і запустити отриманий AMI. З тих пір вона не зникла. Я дивився на перевірку стану здоров’я, коли у мене ще виникали проблеми, і я міг потрапити на сторінку перевірки здоров’я ( curl http://localhost/page.html
), навіть коли отримував проблеми з пропускною спроможністю від балансира навантаження. Я не переконаний, що це питання медичної перевірки, але оскільки ніхто, включаючи Амазонку, не може дати кращої відповіді, я відзначаю це як відповідь. Дякую.
Оновлення: 05.05.2015 Я думав, що повернусь сюди і скажу, що частиною проблеми, на яку я зараз твердо вірю, є налаштування перевірки здоров’я. Я не хочу виключати їх виникнення проблеми з AMI, тому що після запуску замісної AMI це, безумовно, стало краще, але я з’ясував, що наші перевірки здоров’я були різними для кожного балансира навантаження і того, що мав найбільше проблем мав дійсно агресивний нездоровий поріг та тайм-аут реакції. Наш трафік має тенденцію сприймати непередбачувано, і я думаю, що між агресивними налаштуваннями перевірки здоров’я та шипами в трафіку це була ідеальна буря.