GPU stroje

Z MetaCentrum
Skočit na navigaci Skočit na vyhledávání

(English version)

Článek se týká clusterů s GPU kartami použitelnými pro výpočty.

Základní manipulace se stroji

  • dostupné stroje s GPU kartami:


GPU clusters in MetaCentrum
Cluster Nodes GPUs per node Memory MiB compute capability CuDNN gpu_cap=
galdor.metacentrum.cz galdor1.metacentrum.cz - galdor20.metacentrum.cz 4x A40 45 634 8.6 YES cuda35,cuda61,cuda75,cuda80,cuda86
luna2022.fzu.cz luna201.fzu.cz - luna206.fzu.cz 1x A40 45 634 8.6 YES cuda35,cuda61,cuda75,cuda80,cuda86
fer.natur.cuni.cz fer1.natur.cuni.cz - fer3.natur.cuni.cz 8x RTX A4000 16 117 8.6 YES cuda35,cuda61,cuda75,cuda80,cuda86
zefron.cerit-sc.cz zefron6.cerit-sc.cz 1x A10 22 731 8.6 YES cuda35,cuda61,cuda75,cuda80,cuda86
zia.cerit-sc.cz zia1.cerit-sc.cz - zia5.cerit-sc.cz 4x A100 40 536 8.0 YES cuda35,cuda61,cuda75,cuda80
fau.natur.cuni.cz fau1.natur.cuni.cz - fau3.natur.cuni.cz 8x Quadro RTX 5000 16 125 7.5 YES cuda35,cuda61,cuda75
cha.natur.cuni.cz cha.natur.cuni.cz 8x GeForce RTX 2080 Ti 11 019 7.5 YES cuda35,cuda61,cuda75
gita.cerit-sc.cz gita1.cerit-sc.cz - gita7.cerit-sc.cz 2x GeForce RTX 2080 Ti 11 019 7.5 YES cuda35,cuda61,cuda75
adan.grid.cesnet.cz adan1.grid.cesnet.cz - adan61.grid.cesnet.cz 2x Tesla T4 15 109 7.5 YES cuda35,cuda61,cuda75
glados.cerit-sc.cz glados2.cerit-sc.cz - glados7.cerit-sc.cz 2x GeForce RTX 2080 7 982 7.5 YES cuda35,cuda61,cuda75
glados.cerit-sc.cz glados1.cerit-sc.cz 1x TITAN V GPU 12 066 7.0 YES cuda35,cuda61,cuda70
konos.fav.zcu.cz konos1.fav.zcu.cz - konos8.fav.zcu.cz 4x GeForce GTX 1080 Ti 11 178 6.1 YES cuda35,cuda61
glados.cerit-sc.cz glados10.cerit-sc.cz - glados13.cerit-sc.cz 2x 1080Ti GPU 11 178 6.1 YES cuda35,cuda61
zefron.cerit-sc.cz zefron7.cerit-sc.cz 1x GeForce GTX 1070 8 119 3.5 YES cuda35, cuda61
black1.cerit-sc.cz black1.cerit-sc.cz 4x Tesla P100 16 280 6.0 YES cuda35, cuda60
grimbold.metacentrum.cz grimbold.metacentrum.cz 2x Tesla P100 12 198 6.0 YES cuda35, cuda60
zefron.cerit-sc.cz zefron8.cerit-sc.cz 1x Tesla K40c 11 441 3.5 YES cuda35


  • pro GPU úlohy vyhrazené fronty gpu (pro úlohy trvající max. 24 hodin) a gpu_long (až do 336 hodin)
  • na clusteru konos je možné GPU úlohy zadávat v prioritní frontě vlastníků iti
  • zubat je k dispozici pouze pro úlohy do 24 hodin a je dostupný pro uživatele z CEITEC MU a NCBR (v privilegovaných frontách)
  • Přístup do front gpu a gpu_long mají všichni uživatelé MetaCentra s platným účtem


Příklad použití

Pro zajištění přístupu ke GPU kartám je nutné v qsub specifikovat frontu (gpu, gpu_long, iti) a pomocí vlastnosti gpu=X nastavit požadovaný počet GPU karet (1-8, dle zvoleného HW).

qsub -l select=1:ncpus=1:mem=10gb:ngpus=X -q gpu

Kde X je počet požadovaných GPU karet. Defaultně X=1.

qsub -q gpu -l select=1:ncpus=1:ngpus=1:mem=10gb:scratch_local=10gb -l walltime=24:0:0 skript.sh

Zažádá o 1 stroj s 1 GPU kartou pro úlohu trvající nejvýše 24 hodin. V rámci úlohy budou provedeny příkazy v souboru skript.sh.

qsub -I -q gpu -l select=1:ncpus=4:mem=10gb:ngpus=2:scratch_local=10gb -l walltime=6:0:0

Zažádá o 1 stroj, na kterém budou rezervovány 4 CPU a 2 GPU karty v interaktivním režimu pro úlohu trvající nejvýše 6 hodin.

Zažádá o třídu karet s konkrétní hodnotou Compute Capability:

qsub -q gpu -l select=1:ncpus=1:mem=10gb:ngpus=X:gpu_cap=cuda61 <job batch file>

Pomocí PBS parametru gpu_mem je možné specifikovat minimální množství paměti, které bude GPU karta mít.

qsub -q gpu -l select=1:ncpus=2:ngpus=1:mem=10gb:scratch_local=10gb:gpu_mem=10gb -l walltime=24:0:0

FAQ

Q: Jak poznám, které GPU mi přidělil plánovač?

A: ID přidělených GPU karet jsou viditelná v proměnné CUDA_VISIBLE_DEVICES. Tato ID jsou však mapovaná na virtuální ID pro CUDA nástroje. Běžící PBS úloha vidí vždy pouze přidělené GPU karty. Na přidělených GPU se spustí vždy jedna úloha. Nemůže dojít ke kolizi více úloh na jedné GPU. Vaše úlohy mohou používat proměnnou CUDA_VISIBLE_DEVICES nebo detekovat všechny dostupné karty.

Q: Kde mohu získat další informace o GPU kartách nainstalovaných na clusterech?

A: Další informace jsou pod linkem vedle specifikace clusteru v #Submiting GPGPU jobs, kde jsou uvedeny technické detaily clusteru.