LInux: Як діагностувати / виділити те, що викликає "випадкові" зависання та спонтанні перезавантаження?


20

(спочатку розміщено на сервері )

Отже, а не здогадуватися лише про те, в чому причина (хоча мої гроші на драйверах nvidia), де я починаю шукати, щоб уточнити деякі факти?

Я декілька разів переглядав / var / log, але там багато речі, і я не можу (поки) помітити важливі шматочки.


Фон: Коротка версія

Я перейшов з WinXP в Ubuntu Karmic відразу після того, як він став доступним.

З тих пір у мене відбулася серія, здавалося б, випадкових збоїв, які проявляються як:

  • мимовільне перезавантаження
  • повне блокування з моєю USB-клавіатурою та мишкою, що не реагує (аж до світлодіодів, всі вимикаються). Крім того, я, як правило, не зможу потрапити до скриньки, коли це станеться.

Я робив багато пошуків, і Nvidia, здається, є головним підозрюваним, але я не знаю, з чого почати шукати, щоб розібратися, що саме є справжньою причиною.

Користувач на сервері за замовчуванням запропонував перевірити оперативну пам'ять за допомогою MemtextX86 +. Не знайдено помилок. Також було запропоновано моніторинг температури відеокарт, що я зараз розглядаю.

Окрім, як хтось пропонує?



Передумови: Довга версія

Часом я можу проїхати цілий тиждень без аварій, тоді маю 5 за 2 дні.

Мотивований бажанням усунути можливих підозрюваних, я з часом змінив декілька змін:

  • Спочатку я використовував KVM для віртуалізації, зараз я використовую OSE VirtualBox
  • У мене було запущено NFS в ядрі, але тепер використовую Samba
  • Я використовував Compiz, але з тих пір вимкнув це
  • Я перейшов з 64-розрядної кармічної на 32-бітну (також з інших причин)
  • Я спробував Ubuntu, Kubuntu та Xubuntu. Щоразу однакові проблеми (хоча пізніше це здається частіше у Gnome, ніж у XFCE).
  • Я повернув драйвер Nvidia з версії 185 назад до версії 96 (модуль ядра NVIDIA Linux x86 96.43.13 Чт 25 червня 18:42:21 PDT 2009). Це здається , що знизило частоту помилок.


Що стосується того, що працює в цей час, це може відрізнятися. Нижче наведено загальні відомості, але вони не обов'язково виконувались для кожної аварії:

  • Firefox 3.5
  • VirtualBox OSE з 1 або 2 виводами Windows XP
  • Skype
  • Rhythmbox або Exaile


Моє обладнання - 2 - 3 роки:

  • Core 2 Duo 6300
  • 4 Гб оперативної пам’яті
  • якась порода материнської плати Intel цієї старовинні
  • двоядерна відеокарта Asus з чіпсетом Nvdia GeForce 7300 GS
  • 2 x жорсткі диски SATA
  • подвійні монітори (отже, я покладаюся на власні драйвери nvidia)


Я постійно підтримував оновлення системи.

Будемо сподіватися, що наведені вище дані можуть запропонувати комусь запропонувати певний тип журналу чи конфігурації, які варто вивчити.


Оновлення 1

просто трапився збій, в якому динаміки з’їхали. Здійснили якісь гуглі і, здається, у PulseAudio у минулому було кілька проблем. Не впевнений, чи це актуально, але PulseAudio буде працювати кожного разу, коли я стався з аварією.


Оновлення 2

Після посилання @ CarlF на посібник Deys Sysadmin привело мене до чарівного ключа sysrq, який я спробую при наступному збої. Не те, що це дасть мені багато підказки щодо причини, але, принаймні, я, сподіваюся, зможу вимкнутись витончено.


Оновлення 3

lm-sensors повідомляє, що мій графічний процесор працює майже на 70C / 158F - цікаво. Якби я мав здогадуватися, я б сказав, що це важлива підказка.


Оновлення 4

Потрапив у внутрішню частину системи повітряним пиломатеріалом незабаром після мого останнього оновлення - чистий результат: з тих пір лише аварія. Я назву це тепловою проблемою.


3
Відмінне форматування та довідкова інформація, я б хотів, щоб усі питання були такими. +1.
Джон Т

Відповіді:


8

Тут є хороші поради з Посібника для адміністратора Debian: http://www.debian-administration.org/articles/492


Цікаво побачити, що вони мають сказати про неінформативні журнали, що є ознакою справжньої апаратної проблеми. У мене шість годин розриву між записом останнього / var / log / повідомлення та перезавантаженням. Гмммм.
LRE

Прийнято на тій підставі, що посилання дало зрозуміти, що нічого в журналах не є апаратною проблемою - ведіть мене в правильному напрямку.
LRE

4

Перше, що ви можете перевірити, чи є проблеми з обладнанням під час завантаження. Процес завантаження записує дані з буфера кільця ядра в /var/log/boot.log. Після завантаження системи нові повідомлення передаються в цей буфер, і ви можете переглянути його поточний стан за допомогою dmesgкоманди. Важливий журнал, який ви також хочете дослідити, - це /var/log/messages. Це буде містити часові позначки, засоби та пріоритети помилок та додаток, який їх генерував. Наявність доступної позначки часу - це безцінний актив при налагодженні помилок.

Випадкові блокування, безумовно, пов'язані з апаратним забезпеченням. Спробуйте повторно встановити все обладнання на материнській платі і дайте йому memtest86 + run.


Я бачу рядок у / var / log / messages, де написано "imklog 4.2.0, джерело журналу = / var / run / rsyslog / kmsg запущений". Це хороший показник завантаження системи? Якщо так, я можу використовувати це, щоб визначити область журналу, з якої я можу сканувати назад.
LRE

Так, я вважаю, що це один із перших, якщо не перший рядок після завантаження. Це модуль введення журналу ядра.
Джон Т

2

Ви спробували перекидати пам'ять, процесор та інші мікросхеми? Також ви можете спробувати запустити іншу ОС (FreeDOS), щоб усунути деякі можливості.

Як підказка, ви також повинні мати можливість використовувати два монітори досить гарно через Gnome, не використовуючи драйвери nvidia.


найкраще, що я зміг сказати, що я, безумовно, потребую драйверів пропітера nvidia для використання подвійних моніторів. Ви можете вказати мені в правильному напрямку, щоб вони не потребували їх?
LRE

Я можу помилитися. Я трохи розібрався і бачу посилання на xinerama (на який я думаю, що у драйвера є розширення), але нічого, що стосується невласних драйверів. На жаль, у мене немає машини з карткою nVidia, з якою можна було б грати.
Нердфест
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.