Помирає мій GPU?


14

Я тимчасово відключаю захист пам’яті ECC на NVIDIA K20m (пристрій 0 у моєму вузлі) і тепер не можу повернути його до роботи знову. До цього він працював належним чином із включеним ECC. Отже, ось що я зробив: я відключив ECC

nvidia-smi -i 0 --ecc-config=0

і перезавантажено. Коли він з'явився, він показав 100% використання графічного процесора, і він не запустить жодні ядра (він фактично вже не вдався при створенні контексту). Причиною стала подвійна бітова помилка. Я скидаю його

nvidia-smi -i 0 --reset-ecc-errors=0

і перезавантажив вузол. Після перезавантаження використання пристрою становило 0%, і я міг розпочати завдання як завжди. Через кілька годин пристрій знову показав 100% використання GPU. Цього разу він не повідомив про подвійну бітову помилку (навіть про одну бітну помилку). Однак, оскільки я не міг запустити жодну роботу, я перезавантажив вузол, і він придумав 100% використання графічного процесора, я не можу його використовувати, але не повідомляє про трохи помилок. Що в цьому справа?

GPU 0000:02:00.0
    Product Name                : Tesla K20m
    Display Mode                : Disabled
    Persistence Mode            : Enabled
    Driver Model
        Current                 : N/A
        Pending                 : N/A
    Serial Number               : 0324512044699
    GPU UUID                    : GPU-9bfe1aba-1628-a406-3ed5-2af49462a997
    VBIOS Version               : 80.10.11.00.0B
    Inforom Version
        Image Version           : 2081.0208.01.07
        OEM Object              : 1.1
        ECC Object              : 3.0
        Power Management Object : N/A
    GPU Operation Mode
        Current                 : Compute
        Pending                 : Compute
    PCI
        Bus                     : 0x02
        Device                  : 0x00
        Domain                  : 0x0000
        Device Id               : 0x102810DE
        Bus Id                  : 0000:02:00.0
        Sub System Id           : 0x101510DE
        GPU Link Info
            PCIe Generation
                Max             : 2
                Current         : 2
            Link Width
                Max             : 16x
                Current         : 16x
    Fan Speed                   : N/A
    Performance State           : P0
    Clocks Throttle Reasons
        Idle                    : Not Active
        User Defined Clocks     : Not Active
        SW Power Cap            : Not Active
        HW Slowdown             : Not Active
        Unknown                 : Not Active
    Memory Usage
        Total                   : 4799 MB
        Used                    : 12 MB
        Free                    : 4787 MB
    Compute Mode                : Default
    Utilization
        Gpu                     : 100 %
        Memory                  : 0 %
    Ecc Mode
        Current                 : Enabled
        Pending                 : Enabled
    ECC Errors
        Volatile
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
        Aggregate
            Single Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
            Double Bit            
                Device Memory   : 0
                Register File   : 0
                L1 Cache        : 0
                L2 Cache        : 0
                Texture Memory  : 0
                Total           : 0
    Temperature
        Gpu                     : 30 C
    Power Readings
        Power Management        : Supported
        Power Draw              : 49.51 W
        Power Limit             : 225.00 W
        Default Power Limit     : 225.00 W
        Min Power Limit         : 150.00 W
        Max Power Limit         : 225.00 W
    Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Applications Clocks
        Graphics                : 705 MHz
        Memory                  : 2600 MHz
    Max Clocks
        Graphics                : 758 MHz
        SM                      : 758 MHz
        Memory                  : 2600 MHz
    Compute Processes           : None

2
здається дивним; ніколи не помічав нічого подібного. Хоча це може не допомогти вирішити проблему, спробуйте перевстановити драйвери, можливо?
Бен Франчук

Я здогадуюсь, ви вже пробували очевидне, щоб просто забрати і перевстановити все? Я маю на увазі, ем, я мало що знаю про апаратне забезпечення, тому мій підхід завжди полягає в тому, щоб переконатися, що програмне забезпечення - те, що я розумію - має працювати. І тоді я, можливо, оголошу цей твір порушеним, поки не суперечать більш обізнаній думці.
Аріана

Я переглянув це, а також витратив деякий час на дослідження цього питання та його причин. Здається, найкращим рішенням є заміна обладнання.
Адові

1
Ви вже намагалися скинути CMOS?
Сергій

Відповіді:


2

Помирає мій GPU?

Я кажу, що вже мертвий. Це більше не повідомляє про бітові помилки, оскільки ви вимкнули те, що їх виявляє. (ECC виявляє більше, ніж може виправити.) Однак, можливо, помилка на картці (або сама фізична карта) стала причиною несправності.

Ще двоє підозрюваних перед тим, як я встромив його у кошик для "переробки": охолодження та джерело живлення. Охолодження досить просто перевірити; потужність, не так вже й багато.

Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.