Не вдається запустити зображення NVIDIA Docker на Azure


0

Я налаштував Data Science Virtual Machine for Linux (Ubuntu)на Azure і хочу перевірити встановлення графічних процесорів, дотримуючись цих вказівок TensorFlow . Перша команда показує, що з Tesla M60 доступний графічний процесор:

$ lspci | grep -i nvidia
db4d:00:00.0 VGA compatible controller: NVIDIA Corporation GM204GL [Tesla M60] (rev a1)

Друга команда не працює з криптовим повідомленням:

$ sudo docker run --runtime=nvidia --rm nvidia/cuda nvidia-smi
docker: Error response from daemon: OCI runtime create failed: container_linux.go:348: starting container process caused "process_linux.go:402: container init caused \"process_linux.go:385: running prestart hook 1 caused \\\"error running hook: exit status 1, stdout: , stderr: exec command: [/usr/bin/nvidia-container-cli --load-kmods configure --ldconfig=@/sbin/ldconfig.real --device=all --compute --utility --require=cuda>=10.0 brand=tesla,driver>=384,driver<385 --pid=31149 /data/docker/overlay2/16e2b65fa0831681029432e3936005fa2796afd6d5a50c297d6bc0693e57a0b0/merged]\\\\nnvidia-container-cli: requirement error: unsatisfied condition: driver < 385\\\\n\\\"\"": unknown.

Як я можу налаштувати машину для запуску докерського зображення Nvidia?

Відповіді:


0

Ця проблема NVIDIA GitHub та ця частина повідомлення про помилку:

--require=cuda>=10.0 brand=tesla,driver>=384,driver<385

припустимо, що це питання з водієм. Я не зовсім розумію, чому.

Рішення за допомогою Docker, але без вашого зображення

Найпростішим рішенням є використання різних зображень Azure: і те, NVIDIA GPU Cloud Imageі NVIDIA GPU Cloud Image for Deep Learning and HPCзапустити це зображення Docker.

Рішення за допомогою вашого зображення, але без Docker

Крім того, ви все ще можете користуватися, Data Science Virtual Machine for Linux (Ubuntu)але без контейнерування Docker. Наприклад, Conda може створити середовище (де початкові yes |відповіді "на" підказки щодо встановлення пакетів):

yes | conda create -n TF python=2.7 scipy==1.0.0 tensorflow-gpu==1.8 Keras==2.1.3 pandas==0.22.0 numpy==1.14.0 matplotlib scikit-learn
export PATH=$PATH:/data/anaconda/envs/TF/bin
export PATH=$PATH:/data/anaconda/envs/py35/bin

Ці команди стягують з Tensorflow офіційні моделі:

git clone https://github.com/tensorflow/models.git
export PYTHONPATH="$PYTHONPATH:./models"

Перший дзвінок nvidia-smiпоказує, що в GPU немає запущених процесів:

$ nvidia-smi
Mon Jan 21 16:26:02 2019       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44                 Driver Version: 396.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M60           On   | 0000DB4D:00:00.0 Off |                  Off |
| N/A   39C    P8    14W / 150W |      0MiB /  8129MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

Коли ви залишите офіційну модель MNIST на деякий час у фоновому режимі, ви побачите один процес за допомогою GPU:

$ python models/official/mnist/mnist.py &
[1] 25967
$ nvidia-smi
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 396.44                 Driver Version: 396.44                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M60           On   | 0000DB4D:00:00.0 Off |                  Off |
| N/A   37C    P0    77W / 150W |   7851MiB /  8129MiB |     93%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0     26077      C   python                                      7840MiB |
+-----------------------------------------------------------------------------+
Використовуючи наш веб-сайт, ви визнаєте, що прочитали та зрозуміли наші Політику щодо файлів cookie та Політику конфіденційності.
Licensed under cc by-sa 3.0 with attribution required.