Поодинокі розлади подій - це вже не космос, ані літаки; ми бачимо, як вони відбуваються на поверхні вже більше десяти років, а може, і до цього часу два.
Як уже згадувалося, принаймні у космічних програмах ми маємо справу з розладами, використовуючи потрійне голосування (кожен біт насправді три, і виграє дві третини голосів, тож якщо є один, який зміниться, два інші охоплюватимуть це). І тоді ECC або EDAC , з скруберами, які проходять через оперативну пам’ять зі швидкістю, що перевищує прогнозовану швидкість оновлення події для однієї події, щоб очистити пошкодження одного події (ті, які насправді підштовхують дві третини голосів неправильно).
Потім є загальна доза; З часом матеріал стає занадто радіоактивним, щоб ви працювали достатньо, щоб перевищити термін експлуатації автомобіля. Ми не дуже турбуємось про поверхню. (І latchup) Паралельне використання трьох / декількох наборів логіки є / було способом спробувати не потрібно використовувати традиційні рад-хард-технології, і добре, ви можете знайти, наскільки добре це працює.
Люди, які раніше знали, як робити речі для космосу, здебільшого вийшли на пенсію або перейшли, тому зараз у нас є ряд програм, які роблять космос. Або обробляючи простір, як земляні вироби, замість того, щоб намагатися зробити так, щоб усі працювали та мали контрольований повторний вхід та спалювання, тепер ми очікуємо, що з кожного сузір'я буде певна кількість сміття.
Ми бачимо розлади на поверхні. Будь-який накопичувач пам'яті ( DRAM ), який ви купуєте, має FIT, Failures In Time, а будь-який чіп із оперативною пам’яттю в ньому (усі процесори та багато інших) матиме специфікацію FIT (для блоків RAM (SRAM)). Оперативна пам’ять є більш щільною і використовує менші транзистори, тому вона більш чутлива до засмучення, внутрішньої чи зовнішньої. Більшу частину часу ми не помічаємо і не піклуємося про те, як пам'ять, яку ми використовуємо для даних, перегляд відео тощо, записується, читається назад і не використовується знову, перш ніж вона сидить досить довго, щоб засмутитись. Деяка пам’ять, як-от одна, що тримає програму чи ядро, є більш ризикованою. Але ми давно звикли до ідеї просто перезавантажити комп’ютер або скинути / перезавантажити наш телефон (деякі телефони / марки, які вам доведеться регулярно виймати акумулятор). Це були розлади або погане програмне забезпечення чи комбінація?
Номери FIT для вашого окремого продукту можуть перевищувати термін служби цього продукту, але, використовуючи велику ферму серверів, ви враховуєте всю оперативну пам’ять або мікросхеми чи будь-що інше, і MTBF йде від років чи замовлень, що минули, днями чи годинами, десь у ферма. І у вас є ECC, щоб покрити, що ви можете з них. А потім ви розподіляєте навантаження на обробку з відмовою, щоб покрити машини чи програмне забезпечення, яке не виконало завдання.
Прагнення до твердотільного зберігання та перехід від прядильних медіа створили проблему, пов’язану з цим. Сховище, що використовується для SSD (та інших енергонезалежних сховищ), щоб отримати швидше та дешевше, набагато більш мінливе, ніж ми хотіли б, і покладається на EDAC, оскільки ми втрачаємо дані без цього. Вони кидають багато зайвих шматочків у та все це, роблячи математику, щоб збалансувати швидкість, вартість та довговічність зберігання. Я не бачу, як ми повертаємось назад; люди хочуть більше енергонезалежного місця зберігання скрізь, яке вписується в крихітний пакет і не домінує над ціною товару.
Що стосується звичайних схем, то з перших днів використання транзисторів для цифрових схем до сьогодення ми проходимо через лінійну частину транзистора і використовуємо його як комутатор, ми пробиваємо його між рейками з деяким надлишком, щоб забезпечити його прилипання . Як і вимикач світла на вашій стіні, ви перевертаєте його більш ніж на половину, а пружина допомагає решті і тримає її там. Ось чому ми використовуємо цифровий і не намагаємося жити в лінійному регіоні; вони намагалися рано, але не вдалося. Вони не змогли залишитись каліброваними.
Таким чином, ми просто забиваємо транзистор у його рейки, і обидві сторони сигналу утримуються до наступного тактового циклу. Приймаються великі болі, і нинішні інструменти значно кращі, ніж раніше, роблячи аналіз конструкції мікросхем, щоб побачити, що за дизайном є запас часу. Потім випробовуйте кожну плашку на кожній вафлі (та та / або після упаковки), щоб побачити, що кожен чіп хороший.
Техніка мікросхем багато в чому покладається на статистику, засновану на експериментах. Коли ви розігнали свій процесор, ви добре натискаєте на цей запас, залишаєтесь у межах рекламованої тактової частоти, температури тощо, і ваші шанси значно менші, ніж виникнуть проблеми. Процесор xyz 3 ГГц - це просто чіп 4 ГГц, який не вдався до 4 ГГц, але пройшов на частоті 3 ГГц. Частини швидкості класифікуються в основному з лінії виробництва.
Тоді виникають зв’язки між мікросхемами чи платами, і вони також піддаються проблемам, і багато часу і зусиль витрачаються на створення стандартів та дизайну плати тощо, щоб зменшити помилки на цих інтерфейсах. USB , клавіатура, миша, HDMI , SATA тощо. Як і всі сліди на дошці. На дошці та поза нею виникають проблеми із перехресними перевагами; знову ж таки, є багато інструментів, якщо ви їх використовуєте, а також досвід уникнення проблем, в першу чергу, але ще один спосіб, коли ми можемо не побачити ці нулі та їх повноцінне використання.
Жодна з технологій, навіть космос, не є ідеальною. Він повинен бути достатньо хорошим, достатній відсоток продукту повинен покрити достатню очікувану тривалість життя продукту. Деякий відсоток смартфонів повинен зробити це не менше двох років, і все. Старі ливарні підприємства або технології мають більше експериментальних даних і дозволяють отримати більш надійний продукт, але це повільніше і може не бути нових конструкцій, тому ви йдете. Передовий край - саме це, азартна гра для всіх.
До вашого конкретного питання транзистори на кожному кінці сигналу швидко просуваються через їх лінійну область і нахиляються в одну з рейок. Аналіз робиться на кожному комбінаційному шляху, щоб визначити, що він розташується до того, як годинник в кінці шляху зафіксує його, щоб він справді був нульовим або одиничним. Аналіз ґрунтується на експериментах. Перші чіпи продуктової лінійки висуваються за межі дизайну, створюються сюжетні сюжети , щоб визначити, чи є в дизайні запас. Зміни в процесі і / або знайдені окремі кандидати, які представляють повільні та швидкі фішки. Це складний процес, а деякі мають більше матеріалу, деякі менше, працюють швидше, але використовують більше енергії або працюють повільніше тощо.
Ви також підштовхуєте їх до поля. І в основному отримати тепле нечітке відчуття, що дизайн добре, щоб піти у виробництво. JTAG / граничне сканування використовується для запуску випадкових візерунків через мікросхеми між кожним замкненим станом, щоб побачити, що комбінаційні шляхи є надійними для дизайну. І там, де є проблеми, можуть відбутися і деякі спрямовані функціональні тести. Подальше тестування першого кремнію та, можливо, випадкове тестування, щоб переконатися, що продукт хороший. Якщо / коли трапляються збої, це може підштовхнути вас до більш функціональних тестів на виробничій лінії. Це сильно залежить від статистики / відсотків. 1/1000000 поганих, що виходять, може бути нормально, або 1/1000 чи будь-що інше; залежить від того, скільки ви думаєте, що ви виробите з цього чіпа.
Уразливості вказані тут і з іншими. По-перше, сам чіп, наскільки хорошим був дизайн та процес, наскільки близький до поля є найслабший шлях конкретного чіпа в продукт, який ви купили. Якщо занадто близько до краю, то зміна температури або інше може спричинити проблеми з тимчасовою передачею, і біти зафіксують дані, які не осіли в один або нуль. Потім є поодинокі розлади подій. А тут лунає шум. знову речі, вже згадані ...