Яким чином компанії відстежують помилки на IoT-пристроях, шлюзах і платформах в даний час? Моя компанія використовує papertrail для агрегації журналів з усіх пристроїв, однак це часто залишає нас подряпинами між різними системами, коли виникає помилка у виробництві.
Я шукаю спосіб зменшити нашу "часову причину" при вирішенні винятків, які могли бути створені в одному місці (наприклад, на платформі IoT), але виникли внаслідок проблеми в іншому місці стек - наприклад, помилка даних від крайнього пристрою.
Що стосується того, що я знайшов у цьому просторі, Sentry і Rollbar корисні для відстеження винятків на серверах чи програмах, але не надають засобів для відстеження каскадних помилок, про які говорилось у попередньому пункті.
Чи є системи для цього краще, ніж текстовий журнал? Я спеціально прагну використати події в стилі «сухарі», які ви отримуєте від Sentry, але відстежуючи розподілену систему.