Що це викликає? pcieport 0000: 00: 03.0: Помилка шини PCIe: AER / Bad TLP


20

Нижче я бачу повідомлення про помилки:

Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: AER: Multiple 
Corrected error received: id=0018 Nov 15 15:49:52 x99 kernel: pcieport
0000:00:03.0: PCIe Bus Error: severity=Corrected, type=Data Link Layer, 
id=0018(Receiver ID) Nov 15 15:49:52 x99 kernel: pcieport 0000:00:03.0: 
device [8086:6f08] error status/mask=00000040/00002000 Nov 15 15:49:52 
x99 kernel: pcieport 0000:00:03.0: [ 6] Bad TLP

Це призведе до погіршення продуктивності, хоча вони (поки що) були виправлені. Очевидно, це питання потрібно вирішити. Однак я не можу багато про це знайти в Інтернеті. (Можливо, я шукаю в неправильних місцях.) Я знайшов лише кілька посилань, які я опублікую нижче.

Хтось знає більше про ці помилки?

Це материнська плата, Samsung 950 Pro чи графічний процесор (чи якась їх комбінація)?

Апаратне забезпечення: Asus X99 Deluxe II Samsung 950 Pro NVMe в M2. слот на mb (який розділяє порт PCIe 3). Більше нічого не підключено до порту PCIe 3. GeForce GTX 1070 в слоті PCIe 1 Core i7 6850K CPU

У кількох знайдених нами посиланнях згадується таке ж обладнання (X99 Deluxe II mb & Samsung950 Pro). Я запускаю Arch Linux.

Я не знаходжу рядок "8086: 6f08" ні в journalctl, ні в іншому місці, до якого я думав шукати.

незвичайне повідомлення про помилку з nvme ssd (Bad TLP): linuxquestions https://www.reddit.com/r/linuxquestions/comments/4walnu/odd_error_message_with_nvme_ssd_bad_tlp/

PCIe: Ваша картка мовчки бореться з ретрансляцією TLP? http://billauer.co.il/blog/2011/07/pcie-tlp-dllp-retransmit-data-link-layer-error/

GTX 1080 Throwing Bad TLP PCIe Bus Bus - помилки на форумах GeForce https://forums.geforce.com/default/topic/957456/gtx-1080-throwing-bad-tlp-pcie-bus-errors/

драйвери - помилка PCIe в журналі dmesg - Запитайте Ubuntu /ubuntu/643952/pcie-error-in-dmesg-log

Жорсткий замок 780Ti X99 - помилки PCIE - Форуми розробників NVIDIA https://devtalk.nvidia.com/default/topic/779994/linux/780ti-x99-hard-lock-pcie-errors/


Я перемістив свій gtx 710 з гнізда pcie x16 на слот x1 (asus prime b450-plus, ryzen 5 3600, samsung nvme 970)
тренти

Відповіді:


23

Я можу дати хоча б кілька деталей, хоча я не можу повністю пояснити, що відбувається.

Як описано, наприклад, тут , процесор спілкується з контролером шини PCIe за допомогою пакетів рівня транзакцій (TLP). Апаратне забезпечення виявляє наявність несправних, а ядро ​​Linux повідомляє про це як повідомлення.

Параметр ядра pci=nommconfвідключає простір конфігурації PCI, заповнений пам'яттю, який доступний в Linux з ядра 2.6. Вкрай приблизно всі PCI-пристрої мають область, що описує цей пристрій (яку ви бачите з lspci -vv), і початковий метод доступу до цієї області передбачає проходження портів вводу-виводу, тоді як PCIe дозволяє відобразити цей простір у пам'яті для більш простого доступу.

Це означає, що в цьому конкретному випадку щось піде не так, коли контролер PCIe використовує цей метод для доступу до конфігураційного простору певного пристрою. Це може бути апаратна помилка в пристрої, в кореневому контролері PCIe на материнській платі, в специфічній взаємодії цих двох або щось інше.

Використовуючи доступ pci=nommconfдо простору конфігурації всіх пристроїв, можна отримати оригінальний спосіб, а зміна методів доступу може вирішити цю проблему. Тож якщо хочете, це і вирішує, і придушує.


Чи можу я знати, чи це проблема моєї материнської плати? Або моя проблема з процесором. Чи варто їх змінити?
користувач10024395

@ user2675516: Це не пов'язано з процесором. Це проблема кореневого контролера PCIe (який часто знаходиться в Сауд-Бріджі) та / або контролера PCIe пристрою, або їх взаємодії. Так, звичайна зміна материнської плати на одну з різним обладнанням зазвичай позбавляється від неї.
dirkt

Я змінив з asus e-ws на asus deluxe, але проблема все ще зберігається. Ось чому я підозрюю, що це - процесор. Або це тому, що обидва є чіпсетом X99?
користувач10024395

1
@ user2675516: Якщо чіпсет такий самий, esp. контролер PCIe, а потім зміна материнської плати, звичайно, не допоможе. Тому я написав "материнську плату з різним обладнанням ".
dirkt

загальним фактором для мене, здається, є материнська плата з чіпсетом X99
MountainX for Monica Cellio

3

Додавання параметра командного рядка ядра pci=nommconfвирішило проблему для мене. Тому я припускаю, що проблема пов'язана з материнською платою. Це відбувається на всіх моїх комп'ютерах, оснащених материнською платою X99. Це не відбувається в системах Z170 або будь-якому іншому апаратному забезпеченні, яким я володію.


1
Привіт Я теж стикаюся з цією проблемою. Чи можу я знати, що робити pci-nommconf? Це просто придушення проблеми або вирішення проблеми?
користувач10024395

Неможливо підтвердити - отримання помилки на z170i, запущена арка 4.13.12
sitilge

@sitilge - дякую за ваш коментар. Яка марка / модель z170i? Мої материнські плати - Asus. Один - X99 Deluxe II
MountainX для Monica Cellio

Це asus z170i pro gaming.
sitilge

3

Спробуйте виконати наступні дії:

  1. cp /etc/default/grub ~/Desktop
  2. Редагувати груб. Додати pci=noaerв кінці GRUB_CMDLINE_LINUX_DEFAULT. Рядок буде таким:

    GRUB_CMDLINE_LINUX_DEFAULT="quiet splash pci=noaer"
    
  3. sudo cp ~/Desktop/grub /etc/default/

  4. sudo update-grub
  5. Перезавантажте негайно

Я застосував ваше рішення, але замість того, як pci=noaerя pci=nommconfзапропонував @dirkt
user3405291

Дякую, pci = noaer виправив мою проблему slackware 14.2x64, встановлену на ноутбуці hp (установка на робочому столі взагалі не
виявляла

7
Ви б проти зауважити трохи? Що робить цей варіант і як ви очікуєте, що він вирішить проблему?
Калімо

Чому б ви просто не використовували sudoeditдля безпечного редагування? -1 для цих копій тут і там кроки є повною дурницею
LinuxSecurityFreak

4
pci=noaerпросто вимикає розширене повідомлення про помилки. Отже, у вас все ще є помилки, ви їх просто не бачите ...
dirkt

2

Я отримую ті ж помилки (поганий TLP, пов’язаний із пристроєм 8086: 6f08). У мене X99 Deluxe II, Samsung 960 pro, Nvidia 1080 ti. Ці проблеми, схоже, пов'язані з чіпсетом X99 та пристроєм M.2, як-от Samsung Pro.

Материнська плата X99 Deluxe II розділяє пропускну здатність між слотом PCIE16_3 та M.2 / U.2. Після коментаря від @Nic, у BIOS я змінив налаштування бортових пристроїв | Пропускна здатність U.2_2 від Авто до У.2_2. Це вирішило для мене проблему.


Як ти визначив, що це саме той чіпсет? Ви пробували кожен інший чіпсет? Це трапляється на широкому спектрі апаратних засобів.
doug65536

2

Я змінив слот PCIE16_3 Config в Bios на своєму x99-E, щоб статично встановити режим x8 замість автоматичного, що є типовим для підтримки пристроїв M.2. Зараз чудово працює без помилок TLP на обох моїх картках 1070GTX, підключених через розширення PCIe 1x до 16x.

Спочатку я не використовував порт 16_3, перейшов до цього слота для тестування, але все-таки виникли проблеми перед зміною біографії. Також у налаштуваннях шахтаря було змінено налаштування bsleep для всіх карт на 30.

Перед зміною я мав журнал ядра спам із помилками. Також спробували привести в дію систему до і після зміни. Здається, досить наполегливо.


2

Шукайте в посібнику з материнської плати "AER". Ви можете вбити джерело проблеми, виправивши конкретну несумісність або взагалі відключивши AER. Використовуйте це лише в тому випадку, якщо вся спам про помилки стосується виправлених помилок, інакше ви можете приховувати фактичну проблему.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.