Prostředí PBS Professional

Z MetaCentrum
Přejít na: navigace, hledání

(English version)

Related topics
Official documentation
How to compute
PBS Pro Quick Start [PDF]

Tato stránka popisuje důvody použití dávkového systému PBS Professional v MetaCentru. Jak žádat o zdroje v novém prostředí PBS Pro a jednoduché příklady můžete najít v sekci Requesting resources.


Důvody nasazení systému PBS Professional

MetaCentrum jako svůj hlavní dávkový systém pro spouštění úloh do jara 2017 používalo výrazně upravený a rozšířený TORQUE Resource Manager verze 2.4. Během 6 let provozu však naše produkční verze TORQUE (silně vylepšená verze 2.4) zaostávala za hlavní vývojovou verzí od firmy Adaptive Computing, která již překročila verzi 6.0.2. Současně jsme stále častěji naráželi na principiální problémy naší TORQUE produkční verze, které snižovaly propustnost a škálovatelnost systému.

S ohledem na budoucí rozvoj a očekávaný nárůst výpočetních kapacit MetaCentra tak bylo zřejmé, že je potřeba aktualizovat a modernizovat náš dávkový systém. V létě 2016 došlo k uvolnění zdrojových kódů konkurenčního systému PBS Professional, který jsme již dříve v MetaCentru využívali. Po důkladné analýze se ukázalo, že tento moderní dávkový systém splňuje většinu našich aktuálních požadavků, podporuje rozšiřitelnost, nabízí kompatibilitu s ostatními PBS Pro systémy, a dále nabízí i mnohé dosud nepodporované funkcionality. Z těchto důvodů jsme proto prozatím vzdali snahy o časově náročný přechod na aktuálnější verzi TORQUE a zvolili podle nás jednodušší a zajímavější cestu spočívající v přechodu na otevřený systém PBS Pro.

Z uživatelského i administrátorského hlediska slibuje PBS Pro lepší výkon a některé zajímavé novinky a dosud nepodporované funkcionality. Jedná se například o:

  • podporu Docker kontejnerů
  • vysokou propustnost a škálovatelnost (50 000 uzlů, ~1000 000 jader, >1000 000 úloh/den)
  • detailní specifikace přidělování zdrojů úlohám pomocí parametru "-l select=..." a popis jejich alokace na uzly parametrem "-l place=..."

PBS Pro nabízí výrazně pokročilejší možnosti specifikace požadovaných zdrojů. Lze tedy kupříkladu specifikovat kolik zdrojů požaduje paralelní úloha pro jednotlivé "chunky" (chunk je dále nedělitelná množina zdrojů přidělených úloze na 1 fyz. uzlu), a zároveň i ovlivnit, jakým způsobem se tyto chunky budou plánovat na fyzické uzly. Lze tak například dosáhnout toho, že všechny chunky musí být na 1 stroji "vedle sebe" nebo naopak vždy na různých strojích, případně volně umístěné dle aktuální dostupnosti zdrojů.

Z výše uvedených důvodů jsme se rozhodli experimentálně nasadit tento dávkový systém v testovacím provozu na novém clusteru tarkil(1-16).grid.cesnet.cz. PBS Pro v průběhu testování dokázalo splnit naše požadavky a do konce jara 2017 tedy byly všechny stroje MetaCentra převedeny do PSB Pro. CERIT-SC také pomalu přechází na PBS Pro, část strojů je ale stále ve starém systému TORQUE.

Hlavní rozdíly mezi PBS Professional a starým systémem TORQUE

  • Syntaxe zadávání úloh se v PBS Pro liší. Nepoužívejte syntaxi z Torque "-l nodes=...". Používejte prosím pouze novou syntax "select", která je popsána na stránce Requesting resources.
  • Vždy zadávejte požadovaný walltime. Walltime oproti prostředí metacentra nelze zadávat pomocí jednotek ale pouze pomocí syntaxe [[hh:]mm:]ss.
  • Vždy zadávejte velikost a typ scratche.
  • V syntaxi select se požadované zdroje dělí na tzv. chunky, které mohou být naplánované na jeden nebo více uzlů.

Oficiální dokumentace

Detailní dokumentace je k dispozici na stránkách Altair Engineering, Inc.: PBS Professional documentation

Nejdůležitější z uživatelského hlediska je pak uživatelský manuál: PBS Professional User's Guide

PBS Professional Quick Start Guide

Quickstart-pbspro-small.pdf

Známé problémy

  • Ladíme MPI, chybí knihovny, některé programy je potřeba překompilovat, programů je hodně, na požádání urychlíme přípravu těch nejpoužívanějších

Problémy, prosím, hlaste na meta@cesnet.cz