Невдачі процесора в розподілених обчисленнях, які не є аварійними або візантійськими


13

У моделях розподілених обчислень є два основних типи процесорних збоїв:

(1) Вихід з ладу: процесор зупиняється і ніколи не запускається знову. (2) Візантійські збої: процесори поводяться змагально, злісно.

Моє запитання:

Які ще деякі типи відмов процесора були вивчені, які не зводяться до збоїв або візантійських збоїв?

Також більш конкретне питання:

Чи вивчалась модель, де з певною вірогідністю процес на етапі часу і в іншому випадку вимикається? Таким чином, кожен процес підморгує і вимикається, як і раніше.t

Мене найбільше цікавить, як ці невдачі стосуються консенсусу та інших проблем розподілених угод.

Дякую.


@Aaron: Я кілька років тому мав курс з "розподілених систем" та ще один з "несправних систем", але я не дуже займався цими темами. Але я думаю, що модель динамічних несправностей за ключовими словами може вам допомогти.
MS Dousti

1
Я здогадуюсь, що модель відмов, що використовується в області самостабілізації , не зводиться до аварійних збоїв або візантійських збоїв. Один із способів пов'язати це з візантійськими невдачами: ви можете мати тимчасову візантійську поведінку, але якщо і коли така поведінка припиняється, система, що самостабілізується, повинна досягти правильного стану.
Юкка Суомела

1
p1/p

1
ATαAT/pαA

2
@Aaron: Я взяв теорію розподілених обчислень з Мішелем Рейналом, і він описав третю модель, де повідомлення можна скидати випадковим чином. У цій моделі повідомлення може не вдатися безшумно, щоб доставити, але це не обов'язково означає, що вузол вийшов з ладу. Йдеться про збої посилання, а не про збої вузла "модель справедливих втрат каналу", докладніше про це можна прочитати тут: Quiescent Uniform надійний ефір як вступне опитування оракул детектора відмов - Мішель Рейнал ( ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz )
М. Алаган

Відповіді:


12

Скопійовано з коментарів до питання як на запит.

Я взяв теорію розподілених обчислень з Мішелем Рейналом, і він описав третю модель, де повідомлення можна скидати випадковим чином. У цій моделі повідомлення може не вдатися безшумно, щоб доставити, але це не обов'язково означає, що вузол вийшов з ладу. Йдеться про збої посилання, а не про збої вузла "модель справедливих втрат каналу", докладніше про це можна прочитати тут: Quiescent Uniform надійний ефір як вступне опитування оракул детектора відмов - Мішель Рейнал (ftp.irisa.fr/techreports/2000/ PI-1356.ps.gz)


10

Зважаючи на високу вартість ресурсів, пов’язану з візантійською стійкістю до відмов, безумовно, були проаналізовані моделі відмов з дедалі сильнішими припущеннями, особливо з дотриманням вимог до ресурсів, щоб допустити помилки обмеженого типу. ( Azadmanesh and Kieckhafer, 2002 ) забезпечують дуже гарну систематику (див. Рис. 1.)

3f+1f+12f+1f

Інший спосіб моделювання припущень режиму відмови - це відійти від точки зору, орієнтованої на вузол, де втрата повідомлення моделюється як помилка відправника, до моделі посилання несправності, яка є лише подвійним переглядом, як тільки невідповідності, які вони можуть викликати в розглядаються системи. Цю модель досліджували ( Шмід, Вайс та Рашбі, 2002 ), обходячи неможливий результат ( Грей, 1978 ), показуючи детермінований розв’язання проблеми координованої атаки за недоліками зв'язку.


8

Я не знаю, чи @M. Алаган говорив про подібні несправності, але вони, безумовно, схожі: перехідні розломи.

У моделі DVFS , де можна змінити частоту та напругу з метою зменшення споживання енергії, Чжу та Айдін у цій роботі (pdf) використовували модель несправності для DVFS. Вони розглядають перехідні збої, які є, наприклад, помилками програмного забезпечення. Вони визнають недійсним лише виконання поточного завдання, і процесор, який зазнає цього відмови, зможе відновити та виконати наступне завдання, покладене на нього (за наявності).

λ

λ(f)=λpedfmaxffmaxfmin,
fminffmaxd0λpfmaxpTipfi
Ri(fi)=eλ(fi)×Execution Time(Ti,fi).

Вибачте, що дописуєте це так довго після оригінальної публікації, але я знайшов це питання, коли працював над цією темою :). Якщо не вивчають DVFS, ці недоліки все ще існують, формули, ймовірно, все ще дійсні (або пристосовуються). Ви можете знайти більше інформації про тимчасові відмови без DVFS тут .


4

Що стосується вже згаданих моделей відмови від упущення, то подивіться на NeigerToueg , який розглядає різні типи.

Чи вивчалась модель, де з певною вірогідністю процес на етапі часу вмикається і в іншому випадку вимикається? Таким чином, кожен процес підморгує і вимикається, як би там не було.

Це звучить як модель відновлення аварійних ситуацій. Мені невідома жодна модель, де процеси ймовірно включаються / вимикаються. Існують також варіанти, коли процеси деякий час є візантійськими, а потім відновлюються, де з часом усі процеси можуть бути візантійськими (хоча це здебільшого вважається синхронізованим).

Зауважте, що якщо вимкнутись, ви просто означаєте, що процес не має прогресу (він не втрачає свого стану, і не втрачаються повідомлення через "вимкнення" приймача), то те, що ви дивитесь, називається асинхронним система. У контексті спільної пам'яті ваше запитання може бути потім тісно пов'язане з цією роботою Aspnes .


1

Можливі й інші відмови. Наприклад, деякі процесори (наприклад, під протоколом широкомовної передачі чи багатоадресної передачі) можуть перевантажуватися і не зможуть обробити всі вхідні повідомлення. Це призводить до того, що процесор відображається офлайн для деяких процесорів у розподіленій системі.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.