Я помітив дивну поведінку на 2-серверному кластері HA і сподівався, що хтось може підтвердити мою підозру або, можливо, запропонувати якесь інше пояснення ... Ось моя настройка:
- 2-серверна установка SQL 2012 SP1
- SQL AlwaysOn HA увімкнено для кількох баз даних
- Процесори - 2,4 ГГц, 4 ядра
- Оперативна пам’ять - 34 Гб (це екземпляр AWS, отже, непарне число)
- Використання ресурсів порівняно низьке - кожен сервер має вільну пам'ять 14+ ГБ, а SQL не обмежений кількістю пам'яті, яку потрібно використовувати
- Час доступу до диска нормально - рідко триває більше 15 мс / читати чи писати
- Бази даних не великі - 1 ГБ, 1,5 ГБ, 7,5 ГБ
- Процес SQL-сервера використовує 16 Гб приватних байтів, 15 Гб робочого набору
Загалом жодних проблем із ресурсами не відмічено. Тепер для непарної частини. SQL не перезапускається (процес триває майже 6 місяців), але, схоже, кожні ~ 50 днів лічильник тривалості життя сторінки падає до (майже) 0. До цього моменту він стабільно піднімається, жодних крапель. Ось графік парфумів:
Коли я дивлюся на дані лічильника (я не маю точної кількості, лише погодинна агрегація), здається, що значення лічильника PLE досягало приблизно 4 295 000 сек (приблизно за 50 днів) щоразу (принаймні кожен раз, коли у мене є дані).
Моя божевільна теорія полягає в тому, що число PLE утримується в мілісекундах, як непідписаний довгий int (який має обмеження в 4 294 967 295), і на 49,71 день воно скидається, або за дизайном, або через помилку. Це пояснило б поведінку двох серверів та ідентичну схему, яку вони мають. Або це може бути щось зовсім інше, і я просто не маю сенсу. :)
Хтось бачив щось подібне чи може пояснити цю поведінку?
PS Я бачив цей пост, але мій випадок здається дещо іншим.
PPS Це репост - я спочатку розмістив його тут , але порадив аудиторії тут більш доречно.
Дякую!