GPU stroje

From MetaCentrum
Jump to navigation Jump to search

(English version)

Článek se týká clusterů s GPU kartami použitelnými pro výpočty.

Základní manipulace se stroji

  • dostupné stroje s GPU kartami:


GPU clusters in MetaCentrum
Cluster Nodes GPUs per node Memory Compute Capability CuDNN gpu_cap= cuda_version=
galdor.metacentrum.cz galdor1.metacentrum.cz - galdor20.metacentrum.cz 4x A40 48 GB 8.6 YES cuda35,cuda61,cuda75,cuda80,cuda86 11.4
luna2022.fzu.cz luna201.fzu.cz - luna206.fzu.cz 1x A40 48 GB 8.6 YES cuda35,cuda61,cuda75,cuda80,cuda86 11.4
fer.natur.cuni.cz fer1.natur.cuni.cz - fer3.natur.cuni.cz 8x RTX A4000 16 GB 8.6 YES cuda35,cuda61,cuda75,cuda80,cuda86 11.2
zefron.cerit-sc.cz zefron6.cerit-sc.cz 1x A10 24 GB 8.6 YES cuda35,cuda61,cuda75,cuda80,cuda86 11.2
zia.cerit-sc.cz zia1.cerit-sc.cz - zia5.cerit-sc.cz 4x A100 40 GB 8.0 YES cuda35,cuda61,cuda75,cuda80 11.2
fau.natur.cuni.cz fau1.natur.cuni.cz - fau3.natur.cuni.cz 8x Quadro RTX 5000 16 GB 7.5 YES cuda35,cuda61,cuda75 11.2
cha.natur.cuni.cz cha.natur.cuni.cz 8x GeForce RTX 2080 Ti 11 GB 7.5 YES cuda35,cuda61,cuda75 11.2
gita.cerit-sc.cz gita1.cerit-sc.cz - gita7.cerit-sc.cz 2x GeForce RTX 2080 Ti 11 GB 7.5 YES cuda35,cuda61,cuda75 11.2
adan.grid.cesnet.cz adan1.grid.cesnet.cz - adan61.grid.cesnet.cz 2x Tesla T4 16 GB 7.5 YES cuda35,cuda61,cuda75 11.2
glados.cerit-sc.cz glados2.cerit-sc.cz - glados7.cerit-sc.cz 2x GeForce RTX 2080 8 GB 7.5 YES cuda35,cuda61,cuda75 11.2
glados.cerit-sc.cz glados1.cerit-sc.cz 1x TITAN V GPU 12 GB 7.0 YES cuda35,cuda61,cuda70 11.2
konos.fav.zcu.cz konos1.fav.zcu.cz - konos8.fav.zcu.cz 4x GeForce GTX 1080 Ti 12 GB 6.1 YES cuda35,cuda61 11.2
glados.cerit-sc.cz glados10.cerit-sc.cz - glados13.cerit-sc.cz 2x 1080Ti GPU 12 GB 6.1 YES cuda35,cuda61 11.2
zefron.cerit-sc.cz zefron7.cerit-sc.cz 1x GeForce GTX 1070 8 GB 3.5 YES cuda35, cuda61 11.2
black1.cerit-sc.cz black1.cerit-sc.cz 4x Tesla P100 16 GB 6.0 YES cuda35, cuda60 11.2
grimbold.metacentrum.cz grimbold.metacentrum.cz 2x Tesla P100 12 GB 6.0 YES cuda35, cuda60 11.2
zefron.cerit-sc.cz zefron8.cerit-sc.cz 1x Tesla K40 12 GB 3.5 YES cuda35 11.2
zubat.ncbr.muni.cz zubat1.ncbr.muni.cz - zubat8.ncbr.muni.cz 2x Tesla K20Xm (aka Kepler) 6 GB 3.5 YES cuda35 11.2


  • pro GPU úlohy vyhrazené fronty gpu (pro úlohy trvající max. 24 hodin) a gpu_long (až do 336 hodin)
  • na clusteru konos je možné GPU úlohy zadávat v prioritní frontě vlastníků iti
  • zubat je k dispozici pouze pro úlohy do 24 hodin a je dostupný pro uživatele z CEITEC MU a NCBR (v privilegovaných frontách)
  • Přístup do front gpu a gpu_long mají všichni uživatelé MetaCentra s platným účtem

Příklad použití

Pro zajištění přístupu ke GPU kartám je nutné v qsub specifikovat frontu (gpu, gpu_long, iti) a pomocí vlastnosti gpu=X nastavit požadovaný počet GPU karet (1-8, dle zvoleného HW).

qsub -l select=1:ncpus=1:mem=10gb:ngpus=X -q gpu

Kde X je počet požadovaných GPU karet. Defaultně X=1.

qsub -q gpu -l select=1:ncpus=1:ngpus=1:mem=10gb:scratch_local=10gb -l walltime=24:0:0 skript.sh

Zažádá o 1 stroj s 1 GPU kartou pro úlohu trvající nejvýše 24 hodin. V rámci úlohy budou provedeny příkazy v souboru skript.sh.

qsub -I -q gpu -l select=1:ncpus=4:mem=10gb:ngpus=2:scratch_local=10gb -l walltime=6:0:0

Zažádá o 1 stroj, na kterém budou rezervovány 4 CPU a 2 GPU karty v interaktivním režimu pro úlohu trvající nejvýše 6 hodin.

Zažádá o třídu karet s konkrétní hodnotou Compute Capability:

qsub -q gpu -l select=1:ncpus=1:mem=10gb:ngpus=X:gpu_cap=cuda61 <job batch file>

Pomocí PBS parametru gpu_mem je možné specifikovat minimální množství paměti, které bude GPU karta mít.

qsub -q gpu -l select=1:ncpus=2:ngpus=1:mem=10gb:scratch_local=10gb:gpu_mem=10gb -l walltime=24:0:0

FAQ

Q: Jak poznám, které GPU mi přidělil plánovač?

A: ID přidělených GPU karet jsou viditelná v proměnné CUDA_VISIBLE_DEVICES. Tato ID jsou však mapovaná na virtuální ID pro CUDA nástroje. Běžící PBS úloha vidí vždy pouze přidělené GPU karty. Na přidělených GPU se spustí vždy jedna úloha. Nemůže dojít ke kolizi více úloh na jedné GPU. Vaše úlohy mohou používat proměnnou CUDA_VISIBLE_DEVICES nebo detekovat všechny dostupné karty.

Q: Kde mohu získat další informace o GPU kartách nainstalovaných na clusterech?

A: Další informace jsou pod linkem vedle specifikace clusteru v #Submiting GPGPU jobs, kde jsou uvedeny technické detaily clusteru.