GPU stroje

From MetaCentrum
Jump to: navigation, search

(English version)

Článek se týká clusterů s GPU kartami použitelnými pro výpočty.

Základní manipulace se stroji

  • dostupné stroje s GPU kartami:


GPU clusters in MetaCentrum
Cluster Nodes GPUs per node Compute Capability CuDNN gpu_cap=
doom.metacentrum.cz doom1.metacentrum.cz - doom30.metacentrum.cz 2x nVidia Tesla K20 5GB (aka Kepler) 3.5 YES cuda20,cuda35
konos.fav.zcu.cz konos1.fav.zcu.cz - konos8.fav.zcu.cz 4x GPU nVidia GeForce GTX 1080 Ti 3.5 YES cuda20,cuda35,cuda61
gram.zcu.cz gram1.zcu.cz - gram10.zcu.cz 4x nVidia Tesla M2090 6GB 2.0 No cuda20
zubat.ncbr.muni.cz zubat1.ncbr.muni.cz - zubat8.ncbr.muni.cz 2x nVidia Tesla K20Xm 6GB (aka Kepler) 3.5 YES cuda20,cuda35
glados.cerit-sc.cz glados10.cerit-sc.cz - glados16.cerit-sc.cz nVidia 1080Ti GPU 3.5 YES cuda20,cuda35,cuda61
glados.cerit-sc.cz glados17.cerit-sc.cz nVidia 1080Ti GPU 3.5 YES cuda20,cuda35,cuda61
glados.cerit-sc.cz glados1.cerit-sc.cz nVidia TITAN V GPU 3.5 YES cuda20,cuda35,cuda61,cuda70


zefron.cerit-sc.cz zefron8.cerit-sc.cz nVidia Tesla K40 3.5 YES cuda20,cuda35


  • pro GPU úlohy vyhrazené fronty gpu a gpu_long
  • na clusteru Konos je možné GPU úlohy zadávat v prioritní frontě vlastníků iti

Přístup do front gpu a gpu_long mají všichni uživatelé MetaCentra s platným účtem, nepodléhá už schvalování.

Na uzlech je odladěná nová podpora pro zdroje GPU. Karty jsou defaultně nastavené do vlastnictví roota bez přístupu ostatních uživatelů a při zadání následujících požadavků na resource gpu

-l select=1:ngpus=X -q gpu

se v prologu přiřadí některé z karet danému uživateli, epilog je potom vrátí zpět rootovi, X je počet požadovaných GPU karet. Defaultně je prozatím nastavené resources_default.gpu=1

V případě výpadku prolog kontroluje reálný počet dostupných karet vůči naplánovaným. Pokud se naplánovaná úloha fyzicky nevejde (není dost volných karet), nespustí ho.

Příklad použití

Pro zajištění přístupu ke GPU kartám je nutné v qsub specifikovat frontu (gpu, gpu_long, iti) a pomocí vlastnosti gpu=X nastavit požadovaný počet GPU karet (1-4, dle zvoleného HW).

qsub -q gpu -l select=1:ngpus=1 skript.sh

Zažádá o 1 stroj s 1 GPU kartou pro úlohu trvající nejvýše 24 hodin. V rámci úlohy budou provedeny příkazy v souboru skript.sh.

qsub -q gpu -l select=1:ncpus=4:ngpus=1 -l walltime=6:0:0 -I

Zažádá o 1 stroj, na kterém budou rezervovány 4 CPU a 2 GPU karty v interaktivním režimu pro úlohu trvající nejvýše 6 hodin.

FAQ

Q: Jak poznám, které GPU mi přidělil plánovač?

A: ID GPU karet jsou viditelná v proměnné CUDA_VISIBLE_DEVICES. Tato ID jsou však mapovaná na virtuální ID pro CUDA nástroje. T.j. pokud bude v CUDA_VISIBLE_DEVICES hodnota 2,3 tak cuda nástroje budou reportovat ID 0,1.

Q: Jak mohu používat knihovnu NVIDIA CuDNN, kterou GPU clustery podporují?

A: Knihovna NVIDIA cuDNN vyžaduje specifická GPU s "výpočetní schopností" větší než 3.0. Tento požadavek splňují stroje ve skupinách doom a zubat.

Q: Kde mohu získat další informace o GPU kartách nainstalovaných na clusterech?

A: Další informace jsou pod linkem vedle specifikace clusteru v #Submiting GPGPU jobs, kde jsou uvedeny technické detaily clusteru.