Після холодного завантаження сервера Debian 6.0.8 (HP ProLiant) ntpd
грає хаос із системним часом: зміщення та тремтіння щодо звичайних та надійних серверів еталонного часу, що ростуть без обмежень. (Зауважте, що у ідентичного сервера-близнюка взагалі не було проблем.) Після багатьох невдалих спроб виправити проблему на ntpd
стороні, я вирішив спробувати перезавантажити, і все пішло нормально.
Для того, щоб дослідити проблему, я виявив цю невідповідність, яка могла б пояснити мої проблеми з годинником:
root@n1:~# zgrep Detected /var/log/dmesg*
/var/log/dmesg:[ 0.004000] Detected 2400.110 MHz processor.
/var/log/dmesg.0:[ 0.004000] Detected 2383.579 MHz processor.
/var/log/dmesg.1.gz:[ 0.004000] Detected 2400.036 MHz processor.
/var/log/dmesg.2.gz:[ 0.004000] Detected 2400.298 MHz processor.
/var/log/dmesg.3.gz:[ 0.004000] Detected 2400.165 MHz processor.
/var/log/dmesg.4.gz:[ 0.004000] Detected 2400.410 MHz processor.
Зауважимо, що в другому останньому завантаженні (проблемному) виявлена частота процесора є чіткою стороною. Без зовнішнього вигляду похибка та стандартне відхилення виявленої частоти щодо номінальної становить +0,15 МГц ± 0,25 МГц. Для проблемного завантаження у мене помилка -16,4 МГц, що приблизно в 100 разів більше, ніж очікувалося.
Мої запитання:
Чи може помилка такого типу зробити
ntp
дисципліну часу нестабільною / непридатною для використання? Це причина моїх годинникових проблем?Чи такий тип поведінки є симптомом в'ялого обладнання? Чи повинен сервер перейти до обслуговування hw?
Оновлення
Деякі корисні дані:
- ядро 2.6.32-5-amd64 (Debian 2.6.32-48squeeze4)
current_clocksource
єtsc
- помилка для
lpj
(звичайно) відповідає помилці на частоті процесора
Деякі рядки контексту для вищезазначеного grep
[ 0.000000] hpet clockevent registered
[ 0.000000] Fast TSC calibration using PIT
[ 0.004000] Detected 2400.110 MHz processor.
[ 0.000008] Calibrating delay loop (skipped), value calculated using timer frequency.. 4800.22 BogoMIPS (lpj=9600440)
ntpdc -c loopinfo
ніколи не давав мені значення частоти дрейфу. Тепер після перезавантаження все здається в порядку, зі стабільним значенням дрейфу ... До речі, ваша пропозиція правильна, я стежуlog/loopstats
за ненормальною поведінкою.