Відстеження винятків та помилок у виробництві пристроїв IoT?

Яким чином компанії відстежують помилки на IoT-пристроях, шлюзах і платформах в даний час? Моя компанія використовує papertrail для агрегації журналів з усіх пристроїв, однак це часто залишає нас подряпинами між різними системами, коли виникає помилка у виробництві.

Я шукаю спосіб зменшити нашу "часову причину" при вирішенні винятків, які могли бути створені в одному місці (наприклад, на платформі IoT), але виникли внаслідок проблеми в іншому місці стек - наприклад, помилка даних від крайнього пристрою.

Що стосується того, що я знайшов у цьому просторі, Sentry і Rollbar корисні для відстеження винятків на серверах чи програмах, але не надають засобів для відстеження каскадних помилок, про які говорилось у попередньому пункті.

Чи є системи для цього краще, ніж текстовий журнал? Я спеціально прагну використати події в стилі «сухарі», які ви отримуєте від Sentry, але відстежуючи розподілену систему.

remote-access product-design

— зачеплений
джерело

Розподілений трасування

Ідея, що стоїть за будь-яким вагомим розподіленим трасуванням, найвідоміша, описана в цій газеті Google про їх рішення Dapper . Зауважте, що я не кажу, що вони це вигадали. По суті, це працює так само і для IoT, просто запустіть слід на краю, будь-якого вашого бекенда або навіть на кінцевих пристроях.

Незважаючи на те, що посібник Google більш-менш орієнтований на серверні системи, концепція може бути легко адаптована до кінцевих пристроїв. Магія використання ідентифікаторів слідів та прольотів для відстеження всієї вашої інформації в системах можна побачити за допомогою кожної візуалізації, яку Netflix робить через Vizceral, яку вони нещодавно відкривали. Те, що в блозі візуалізується під регіональним переглядом , повністю ґрунтується на аналізі журналу в реальному часі, де виклики корелюються через ідентифікатори слідів. Зауважте, що, як Google згадує в документі Dapper, Netflix має вибірку викликів, що функціонують в інтерфейсі API. Google згадав у статті 1: 1000 - що вже кілька років. Очевидно, Netflix вже досяг 1: 1 мільйона за деякими типами запитів.

Я не знаю про вашу систему, але, швидше за все, ви можете почати з фактичного 100% відстеження.

У будь-якому випадку, поки ви можете або зіставити слід від початку до своїх IoT-пристроїв, або навіть створити ідентифікатори слідів на своїх кінцевих точках, в першу чергу, нічого не заважає вам адаптувати ці ідеї таким чином, що включає ваші крайові пристрої.

— Гельмар
джерело

Дякую Гельмаре, я хотів би згадати Даппера в своєму первісному запитанні, тому що я вже читав цю область! Звичайно, є можливість скористатися цим, але також сподівався побачити, чи є інші існуючі рішення, які вже використовуються?

— причепився