Содержание
- 2. Структура кластера Узел доступа (access node) СХД Узел (worker node) Узел (worker node) SSH подключение к
- 3. Общая информация Для работы на кластере используется SLURM при входе на кластер необходимо подгружать его модуль
- 4. Запуск обучения Схему обучения можно организовать так: main.sbatch – загружает образы в докер и запускает файл
- 5. Пример main.sbatch #!/bin/bash #SBATCH --job-name=samplenet #SBATCH --nodes=2 #SBATCH --time=60-00:00:00 #SBATCH --partition=2xP100 #SBATCH --error=/home/iprotopopov/gosniias/ protopopov/main_experiment/log/%j_%x.log #SBATCH --output=/home/iprotopopov/gosniias
- 6. Примечание main.sbatch При запуске мы всегда загружаем образ и поднимаем контейнеры, но процессы могут падать и
- 7. Пример main.py import sys import os import subprocess running_docker_cmd = 'nvidia-docker run \ --privileged \ --network=host
- 8. Пример main.py pytorch_node_cmd = \ 'cd /code && CUDA_VISIBLE_DEVICES=0 NCCL_DEBUG=INFO NCCL_SOCKET_IFNAME=ib0 ./train.sh {world_size} {rank0} 0 {job_id}
- 9. Пример train.py dist_backend = 'nccl' dist_file = 'file:///code/sync_file/sync_file' + args.jobid dist.init_process_group( backend=dist_backend, init_method=dist_file, rank=int(rank), world_size=world_size) net
- 10. Возможно полезное Удобно использовать Midnight Commander: запуск командой – mc Запускаемы файлы на узле должны иметь
- 12. Скачать презентацию