Як процесори можуть бути стабільними, коли у них стільки транзисторів?


10

Як ми знаємо, процесор має майже мільярди транзисторів на одну мініатюру, що робити, якщо один з транзисторів зламається?

Чи є у процесора якийсь механізм автоматичного відновлення?


6
Насправді більші на сьогодні містять мільярди транзисторів.
starblue

6
"стабільний", ймовірно, не є правильним словом, оскільки це більше вказує на такі питання, як метастабільність. Кращим вибором для цієї теми будуть такі слова, як "без дефектів" або "врожайність". Або ви могли б запитати про стабільність виробничого процесу, а не про отримані чіпи.
Кріс Страттон

2
@ChrisStratton, я думаю, що ОП може запитати більше про надійність, ніж про врожайність.
The Photon

1
Якщо один з транзисторів зламається, ви викидаєте чіп. Немає надмірностей (за винятком деяких конкретних програм) і немає варіантів ремонту.
Дмитро Григор’єв

Відповіді:


18

Це просто, ми тестуємо їх, перш ніж продати і викинути поганих.

Існує маса способів зробити це - різні люди роблять різні речі, часто використовують комбінацію:

  • деякі тести мають швидкість, щоб переконатися, що вони проходять досить швидко.

  • інші тести включають режим, який перетворює деякі або всі фліпфлопи в мікросхемі в гігантські регістри послідовних змін, ми встановлюємо відомі дані в ці ланцюги, потім запускаємо чіп на один годинник, а потім скануємо нові результати назад і перевіряємо, чи відповідають вони наші прогнозовані результати - автоматичні інструменти тестування генерують мінімальний набір "векторів сканування", які перевірять кожен випадковий затвор чи транзистор на мікросхемі - інші вектори роблять спеціальні тести оперативної блоки,

  • інші перевіряють, що зовнішні дроти всі з'єднані правильно

  • ми впевнені, що це не тягне нездорову кількість струму

Час тестування коштує грошей, ми іноді робимо просте тестування очевидних мертвих чіпів, перш ніж їх упакувати для викидання поганих, а потім ще тестування після упаковки.


1
"Це просто. Ми тестуємо їх, перш ніж продати і викинути поганих". Якби це була єдина система якості, ви, мабуть, мали б вихід 0,00000000001% із 1 млрд транзисторних пристроїв
Федеріко Руссо

2
Це дійсно так просто; фокус полягає в надзвичайно великій кількості моделювання та попередньої перевірки правил, щоб переконатися, що ваш урожай прийнятний. У самій логіці процесора рідко виникає надмірність; іноді ви отримуєте трохи надмірності в оперативної пам'яті на мікросхемі.
pjc50

Якщо конструкція правильна, ваші індивідуальні збої виникають із-за дефектів матеріалів, забруднення, помилок процесу тощо. Хоча у використанні є лише кілька розмірів вафельних виробів, більші ІМ коштують дорожче, ніж їх пропорційний розмір, тому що шанс виникнення дефекту збільшується з область. У кількох випадках ви можете мати чіп з більш функціональними одиницями, ніж це іноді продається, тому він все-таки може бути проданим, якщо він поганий, але це обмежено. Іноді ви можете купувати FPGA зі знижкою, які перевіряються лише для роботи у певному конфігураційному файлі, а не для роботи з довільним.
Кріс Страттон

2
Думаю, ви забули згадати таких виробників, як процесори AMD, що продають погані ядра, як іншу модель із заблокованим ядром. Це якась надмірність чи, можливо, розумний маркетинг.
акалтар

Якщо хтось коли-небудь замислювався про те, як постачаються деталі сірого ринку, вони більше не повинні дивуватися. Я працював в кінці програмного забезпечення чіп-файлових систем, і автоматичне тестування, як описано тут, - це величезна частина часу та грошових витрат для заводів.

12

Щоб трохи розширити те, що сказали інші: Проходить валідація, після чого відбувається класифікація фішок.

Транзистори в процесорах, як правило, показують свої проблеми на більш високих частотах, тому прийнято робити один процесор, а потім продавати його як кілька різних продуктів. Більш дешеві процесори - це фактично пошкоджені версії дорогого процесора. Інший варіант - відключення певних частин процесора. Наприклад, AMD виготовила процесори з ядром BArton. Він також продавав процесори з ядром Thorton. Тортон не був новим стрижнем. Натомість половина кешу L2 була несправною та вимкнена. Таким чином, AMD зробила деяке відновлення процесорів, які були б інакше витрачені.

Те ж саме сталося з 3-х ядерними процесорами AMD. Спочатку вони були 4 ядерними процесорами, але одне з ядер було визнано несправним, тому його було відключено.


2
не рідкість виготовляти мікросхему з функціями, які ви можете відключити, продуваючи запобіжники. Проста економія виходу чіпа, якщо ми зможемо врятувати весь чи частину чіпа, запустивши його повільніше або відключивши функцію, яка не вдалась до тесту, ми можемо відновити частину вартості цієї частини, а не скинути всю частину. ви також можете повернутися до прикладів Intel 386 SX та DX як прикладів. і майже кожен процесор оцінюється за швидкістю. повільніші - це частини, які вийшли з ладу на більшій швидкості.
old_timer

2
Ні, не 386SX / 386DX. Ці мікросхеми мають абсолютно інший інтерфейс шини. Ви не просто відключите частину 386DX, щоб отримати 386SX. Те, що ви говорите, справедливо для 486DX / 486SX, у останнього FPU вимкнено.
Майкл Карчер

6

Відповідь на ваше запитання: "Ні". Наразі методів автоматичного відновлення для апаратних збоїв немає.

Виробники розробляють свої процеси, щоб отримати найкращі врожаї (долари) від вафель. Стискаючи транзистори, вони можуть помістити більше функціональних можливостей на меншу площу. Це можна вважати як більше чіпів (однакової функціональності) на одну вафлю. Коли розмір чіпа скорочується, ви можете отримати їх більше із вафельних виробів, але, коли вони скорочуються, більшість з них виходять поганими. Виробники це приймають і постійно штовхають конверт технології, щоб зменшити чіпси. Те, що говорить їм, що вони знаходяться на краю конверта, - це погані фішки.

Якщо компанія може зменшити розмір функцій до 70% від старого розміру функцій, вони можуть отримати приблизно в 2 рази більше кількості фішок на вафлі. Якщо їх дохідність за старим процесом становила 95% (скажімо, 95 хороших фішок з 100 на вафлі), а їх вихід на новий процес становить 75% (150 хороших фішок з 200 на вафельні), вони заробляли гроші новий процес.


5
Для деяких типів мікросхем, таких як флеш-пам’яті NAND, виробники звичайно висувають конверт за межі того пункту, коли мікросхеми з дефектом будуть нормою, але більшість несправностей матимуть дещо передбачувані характеристики, і пристрої, що використовують мікросхеми, повинні очікувати працювати навколо них.
supercat

3

У невеликих вузлах кожен "транзистор" - це 2 ворота, якщо у вас немає пам'яті, наприклад, SRAM. Якщо це не працює, у вас просто повільний драйвер. Для SRAM, якщо вона не проходить, ви просто "підірвете" рядок. Якщо обидва FETS на транзисторі виходять з ладу, у вас вийде дуже дорогий шматок піску, але я особисто ніколи цього не бував. Сучасні FinFET такі малі, що існує маса виробничих проблем (в основному клопотів) через характер літографії та ймовірності. Ви побачите, що спочатку на нових процесах з'являються FPGA, тому що ви можете просто "підірвати" погані комірки та змінити графік маршрутизації. Я не можу дати вам цифри, але ви можете здогадатися, як у світі x86 бінінг, речі рідко йдуть ідеально.

Ось ілюстрація компонування комірки XOR: XOR

Зелені смужки ліворуч / праворуч - плавники, а червоні - полі. Блюз - кольоровий метал на рівні 1.

Комерційні процесори не мають механізму автоматичного відновлення, але все, що плаває навколо, в академічних і спеціальних процесорних процесорах. Я створив кілька спеціалізованих компонентів, які використовують асинхронну архітектуру для вирішення проблем із годинником, які виникають через погані ворота, хоча руйнування оксиду отвору як гарячого носія, де ви просто отримаєте один дійсно повільний транзистор.


3

Мабуть часи змінилися. Багато з п'ятирічних відповідей на це запитання вже не відображають сучасний стан, а деякі тодішні не були точними.

Транзистори та інші пристрої на кремнію є досить стабільними після виготовлення за умови, що ІС не перегрівається.

Ось що зараз зроблено в сучасному процесі виготовлення ІС для мінімізації дефектів:

  • ІС проходять комплексну перевірку, як на рівні перевірки конструкції та перевірки, так і на окремих випробуваннях зразків. У цій роботі описані деякі процедури тестування для Pentium 4.
  • загальний дизайн ІМС зараз занадто складний, щоб повністю перевірити
  • ІМ мають програмований мікрокод, що дозволяє обмежити ступінь перепрограмованості, якщо виявлені дефекти після виготовлення
  • сучасні ІС містять зайві шари кремнію, що дозволяє виправити дефекти, виявлені під час виготовлення
  • багато процесорів мають надлишкові апаратні модулі, будь то ядра процесора, кеш-пам'ять або інший IP; якщо не всі підрозділи функціональні, їх можна відключити та "поповнити" як частини з нижчою вартістю. Одним із прикладів є багатоядерний інтелектуальний модуль PS4, який включає одне резервне ядро, яке відключено для досягнення більш високого виходу.
  • деякі процесори працюватимуть, але не на максимальній швидкості; вони можуть продаватися як менша швидкість, менша вартість процесорів
  • багато процесорів та оперативної пам’яті використовують пам'ять кодування виправлення помилок (ECC) або виконують виправлення помилок перевірки помилок на різних етапах передачі даних для забезпечення цілісності
  • іноді процесори виходитимуть з ладу таким чином, що спричиняє збій системи, але не заважає системі працювати знову при перезавантаженні (замикання CMOS)

Помилки програмування у формальній специфікації процесора швидше, ніж відмови конкретного транзистора.

Хоча звичайні процесори не мають нічого подібного до здатності до автоматичного відновлення, також проводилася робота над самовідновленням процесорів як контрзахід космічних променів. Космічні промені можуть здати достатню кількість енергії в процесор або оперативну пам’ять, щоб викликати біт-відвороти.

Як зазначається в коментарях, критичні для місії системи давно покладаються на кілька процесорів для перевірки. Шаттл, в 1976 році , в якості прикладу, використовував п'ять комп'ютерів, чотири з яких втекли ту ж програму і «голосували» за всіма рішеннями управління польотом для забезпечення безпеки.


ECC та виявлення помилок використовуються досить довго (для пам’яті та зв'язку, для арифметичних та подібних логічних функцій деякі системи вищого класу протягом багатьох років виявляли помилки). Аналогічно, надлишкові виконання (просторові чи часові) використовуються для виявлення помилок протягом досить тривалого часу в системах, де вартість апаратного забезпечення / час виконання видається виправданою.
Пол А. Клейтон

@ PaulA.Clayton, якщо ви викладете повідомлення про Itanium, а згодом і про функції Xeon RAS, я, безумовно, буду радий проголосувати за це.
Олександр Р.

2

Більшість сучасних процесорних транзисторів - FET. Вони мають перевагу в набутті опору джерела / зливу, коли починають перевантажуватися. Це один із факторів, що дозволяє робити MOSFET з високою потужністю, встановлюючи багато паралельно. Навантаження автоматично розподіляється. Це може бути фактором, який допомагає поширювати проблеми. Але я думаю, що це насправді простіше цього.

Як і у більшості електронних деталей, якщо ви керуєте ними в межах специфікації, вони прослужать досить довго. Коли виробляється мікропроцесор, для витрат є два фактори. Просто місце на кремнію і, завдяки складності, фактичний вихід. Не всі чіпи працюють після виготовлення. Однак, як тільки це зроблено і пройде перевірку, ти знаєш, що транзистори хороші. Якщо їхати в межах специфікації, велика ймовірність, що вони залишаться хорошими.


2

Ви ніколи не замислювалися, чому один і той же чіп іноді продається з різною швидкістю? А ви помітили, що іноді одна і та ж архітектура чіпів GPU продається з різною кількістю внутрішніх блоків?

Неможливо виправити апаратний дефект на рівні кремнію, але з часом дизайнери навчилися вирішувати проблему підвищення врожаю . Без передбачення врожайність залежить виключно від якості виготовлення. Однак якщо ви розумні, ви можете відновити деякі погані фішки.

Наприклад, скажімо, що у вас є 18-ядерна конструкція мікросхем, яка працює більш-менш незалежно. Під час тестування ви сортуєте ідеальні чіпи та випускаєте їх як модель A18. Більшість несправних мікросхем мають лише одну помилку, тому вони працюватимуть нормально до тих пір, поки несправне ядро ​​не буде вимкнено. Ви продаєте їх як модель A17 за дещо нижчою ціною, а ті, у яких є два погані ядра, продаються як модель A16 за все нижчою ціною.

Те саме може стосуватися і швидкості чіпа. Ідеально виготовлені мікросхеми зможуть працювати зі швидкістю, що перевищує проектну специфікацію, але чіпи з проблемами можуть не мати. Вони продаються на специфікаціях з меншою швидкістю.

Цей метод різко збільшить загальний урожай і тому досить часто зустрічається. Наприклад, у PlayStation 3 є 8 апаратних пристроїв SPE в апаратному забезпеченні, але один завжди відключений для обліку проблем з урожайністю.


1

Чи є у процесора якийсь механізм автоматичного відновлення?

Ні, як пояснено вище. Однак їх кеші, особливо L2 і L3, можуть мати в них додаткову оперативну пам’ять. Коли деталь тестується на заводі, погані блоки ОЗУ можуть бути видалені та використані додаткові блоки ОЗУ.


1

Взагалі ні, ви покриваєте погані транзистори через екран чіпа, і ви очікуєте порівняно невеликий відсоток втрат після цього. Бізнес з чіпами існує вже десятиліття, у них є багато хитрощів для управління цим (і так, іноді одним із прийомів є просто відпустити погані частини та замінити їх безкоштовно або нехай клієнти будуть незадоволені).

У середовищі (космосі), обтяженій радіацією, ви, ймовірно, потрійне голосування, кожен "біт" насправді має три біти, які голосують, щоб зробити один. для визначення налаштування бітів потрібно лише дві третини голосів. тож транзистори на іншій третині можуть врешті погіршитись і будуть із загальною дозою. але головна проблема - це розлад однієї події. Ці мікросхеми та системи розроблені для цих середовищ від верху до низу, кремнію, апаратних засобів, програмного забезпечення тощо. І вони використовують старі перевірені та справжні технології, а не передові кромки, тому кількість транзисторів і розмір транзисторів - це ще з давньої давнини.

Очікується, що КОТИ час від часу відкашляються і провалюються.


-1

Це може здатися дивом, але існує ряд механізмів, що застосовуються для зменшення кількості відмов транзистора. Однак, залежно від типу відмови транзистора та де, процесор може чи не може бути корисним іноді за певних умов.

В даний час часто не існує вбудованого механізму автоматичного відновлення, але існує багато досліджень переналагоджених обчислень, надмірності та інших методів, щоб мінімізувати цю проблему.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.