GPU stroje
Článek se týká clusterů s GPU kartami použitelnými pro výpočty.
Základní manipulace se stroji
- dostupné stroje s GPU kartami:
GPU clusters in MetaCentrum | |||||||
---|---|---|---|---|---|---|---|
Cluster | Nodes | GPUs per node | Memory MiB | compute capability | CuDNN | gpu_cap= | |
galdor.metacentrum.cz | galdor1.metacentrum.cz - galdor20.metacentrum.cz | 4x A40 | 45 634 | 8.6 | YES | cuda35,cuda61,cuda75,cuda80,cuda86 | |
luna2022.fzu.cz | luna201.fzu.cz - luna206.fzu.cz | 1x A40 | 45 634 | 8.6 | YES | cuda35,cuda61,cuda75,cuda80,cuda86 | |
fer.natur.cuni.cz | fer1.natur.cuni.cz - fer3.natur.cuni.cz | 8x RTX A4000 | 16 117 | 8.6 | YES | cuda35,cuda61,cuda75,cuda80,cuda86 | |
zefron.cerit-sc.cz | zefron6.cerit-sc.cz | 1x A10 | 22 731 | 8.6 | YES | cuda35,cuda61,cuda75,cuda80,cuda86 | |
zia.cerit-sc.cz | zia1.cerit-sc.cz - zia5.cerit-sc.cz | 4x A100 | 40 536 | 8.0 | YES | cuda35,cuda61,cuda75,cuda80 | |
fau.natur.cuni.cz | fau1.natur.cuni.cz - fau3.natur.cuni.cz | 8x Quadro RTX 5000 | 16 125 | 7.5 | YES | cuda35,cuda61,cuda75 | |
cha.natur.cuni.cz | cha.natur.cuni.cz | 8x GeForce RTX 2080 Ti | 11 019 | 7.5 | YES | cuda35,cuda61,cuda75 | |
gita.cerit-sc.cz | gita1.cerit-sc.cz - gita7.cerit-sc.cz | 2x GeForce RTX 2080 Ti | 11 019 | 7.5 | YES | cuda35,cuda61,cuda75 | |
adan.grid.cesnet.cz | adan1.grid.cesnet.cz - adan61.grid.cesnet.cz | 2x Tesla T4 | 15 109 | 7.5 | YES | cuda35,cuda61,cuda75 | |
glados.cerit-sc.cz | glados2.cerit-sc.cz - glados7.cerit-sc.cz | 2x GeForce RTX 2080 | 7 982 | 7.5 | YES | cuda35,cuda61,cuda75 | |
glados.cerit-sc.cz | glados1.cerit-sc.cz | 1x TITAN V GPU | 12 066 | 7.0 | YES | cuda35,cuda61,cuda70 | |
konos.fav.zcu.cz | konos1.fav.zcu.cz - konos8.fav.zcu.cz | 4x GeForce GTX 1080 Ti | 11 178 | 6.1 | YES | cuda35,cuda61 | |
glados.cerit-sc.cz | glados10.cerit-sc.cz - glados13.cerit-sc.cz | 2x 1080Ti GPU | 11 178 | 6.1 | YES | cuda35,cuda61 | |
zefron.cerit-sc.cz | zefron7.cerit-sc.cz | 1x GeForce GTX 1070 | 8 119 | 3.5 | YES | cuda35, cuda61 | |
black1.cerit-sc.cz | black1.cerit-sc.cz | 4x Tesla P100 | 16 280 | 6.0 | YES | cuda35, cuda60 | |
grimbold.metacentrum.cz | grimbold.metacentrum.cz | 2x Tesla P100 | 12 198 | 6.0 | YES | cuda35, cuda60 | |
zefron.cerit-sc.cz | zefron8.cerit-sc.cz | 1x Tesla K40c | 11 441 | 3.5 | YES | cuda35 |
- pro GPU úlohy vyhrazené fronty gpu (pro úlohy trvající max. 24 hodin) a gpu_long (až do 336 hodin)
- na clusteru konos je možné GPU úlohy zadávat v prioritní frontě vlastníků iti
- zubat je k dispozici pouze pro úlohy do 24 hodin a je dostupný pro uživatele z CEITEC MU a NCBR (v privilegovaných frontách)
- Přístup do front gpu a gpu_long mají všichni uživatelé MetaCentra s platným účtem
- Aktuální verze ovladačů cuda (parametr cuda_version) lze ověřit interaktivně v sestavovači příkazu qsub.
Příklad použití
Pro zajištění přístupu ke GPU kartám je nutné v qsub specifikovat frontu (gpu, gpu_long, iti) a pomocí vlastnosti gpu=X
nastavit požadovaný počet GPU karet (1-8, dle zvoleného HW).
qsub -l select=1:ncpus=1:mem=10gb:ngpus=X -q gpu
Kde X je počet požadovaných GPU karet. Defaultně X=1.
qsub -q gpu -l select=1:ncpus=1:ngpus=1:mem=10gb:scratch_local=10gb -l walltime=24:0:0 skript.sh
Zažádá o 1 stroj s 1 GPU kartou pro úlohu trvající nejvýše 24 hodin. V rámci úlohy budou provedeny příkazy v souboru skript.sh.
qsub -I -q gpu -l select=1:ncpus=4:mem=10gb:ngpus=2:scratch_local=10gb -l walltime=6:0:0
Zažádá o 1 stroj, na kterém budou rezervovány 4 CPU a 2 GPU karty v interaktivním režimu pro úlohu trvající nejvýše 6 hodin.
Zažádá o třídu karet s konkrétní hodnotou Compute Capability:
qsub -q gpu -l select=1:ncpus=1:mem=10gb:ngpus=X:gpu_cap=cuda61 <job batch file>
Pomocí PBS parametru gpu_mem
je možné specifikovat minimální množství paměti, které bude GPU karta mít.
qsub -q gpu -l select=1:ncpus=2:ngpus=1:mem=10gb:scratch_local=10gb:gpu_mem=10gb -l walltime=24:0:0
FAQ
Q: Jak poznám, které GPU mi přidělil plánovač?
A: ID přidělených GPU karet jsou viditelná v proměnné CUDA_VISIBLE_DEVICES. Tato ID jsou však mapovaná na virtuální ID pro CUDA nástroje. Běžící PBS úloha vidí vždy pouze přidělené GPU karty. Na přidělených GPU se spustí vždy jedna úloha. Nemůže dojít ke kolizi více úloh na jedné GPU. Vaše úlohy mohou používat proměnnou CUDA_VISIBLE_DEVICES nebo detekovat všechny dostupné karty.
Q: Kde mohu získat další informace o GPU kartách nainstalovaných na clusterech?
A: Další informace jsou pod linkem vedle specifikace clusteru v #Submiting GPGPU jobs, kde jsou uvedeny technické detaily clusteru.