Práce s daty
Metacentrum wiki is deprecated after March 2023
Dear users, due to integration of Metacentrum into https://www.e-infra.cz/en (e-INFRA CZ service), the documentation for users will change format and site. The current wiki pages won't be updated after end of March 2023. They will, however, be kept for a few months for backwards reference. The new documentation resides at https://docs.metacentrum.cz. |
V tomto průvodci najdete nejdůležitější informace ohledně zacházení s daty, jejich ukládání a archivování.
Uchovávání dat na storagích: velké množství souborů
Uchovávání velkého množství souborů (>=milion souborů) v domovských adresářích uživatelů je problematické, protože se tím značně prodlužuje doba nutná k jejich zálohování i k jakékoliv další manipulaci s uživatelskými daty. Velikost souborů je v takových případech druhotná, limitujícím faktorem je počet. V zájmu udržení přijatelné časové náročnosti servisních zásahů je počet souborů v domovských adresářích limitován kvótou. Uživatelé, kteří tuto kvótu překročí, by měli nepotřebná data buď smazat, nebo soubory archivovat do větších celků. Uživatelé, kteří skutečně potřebují v domovském adresáři pracovat s velkým množstvím souborů, mohou požádat o vyjímku na meta@cesnet.cz.
Jak zjistit kvótu na počet souborů
Svou bilanci kvót na celkový objem dat i na počet souborů najdete
- v tabulce, kteou uvidíte po přihlášení na čelní uzel
- na webových stránkách MetaVO
Jak odstranit, zabalit a/nebo archivovat přebytečné soubory
V případě, že se jedná o soubory, které nepotřebujete, odstraňte je přímo ze storage příkazem rm, např..
(BUSTER)melounova@tarkil:~$ ssh melounova@storage-brno6.metacentrum.cz rm -rf ~/junk_dir
Tento příkaz také můžete vložit do skriptu a ten poslat jako dávkovou úlohu:
(BUSTER)melounova@tarkil:~$ qsub -l walltime=24:00:00 remove_junk_dir.sh
V případě, že se jedná o soubory, které potřebujete, zabalte je do větších celků příkazem tar, který můžete spustit buď přímo z příkazové řádky nebo jej vložit do dávkové úlohy:
(BUSTER)melounova@tarkil:~$ ssh melounova@storage-brno6.metacentrum.cz tar -cf not_junk_dir.tar ~/not_junk_dir (BUSTER)melounova@tarkil:~$ qsub -l walltime=24:00:00 tar_my_files.sh
Pokud máte v domovském adresáři dostatek místa, můžete v něm zabalená data ponechat; nicméně doporučujeme uživatelům, aby data, která mají trvalou hodnotu a se kterými aktuálně nepracují, archivovali.
Pokud skutečně potřebujete pracovat ve svém domovském adresáři s velkým množstvím souborů, kontaktujte nás na meta@cesnet.cz.
Přenos dat: menší objem dat
Menší objemy dat (stovky samostatných souborů a/nebo méně než 100 GB) můžete přenést z/na stroje MetaCetra velmi jednoduše.
Přesnos dat na Linuxu
scp
Ke kopírování na stroje MetaCentra použijte příkaz scp. Čelní uzel "skirit.metacentrum.cz" můžete nahradit libovolným jiným čelním uzlem.
scp my_file.txt jenicek@skirit.metacentrum.cz: # Zkopíruj soubor "my_file.txt" do domovského adresáře uživatele "jenicek" na čelním uzlu "skirit.metacentrum.cz".
Tento příkaz můžete použít i pro přenos dat opačným směrem: tj. z MetaCentra na vaše PC.
# copy file "results.txt" Zkopíruj soubor z adresáře "calc" (který se nachází v domovském adresáři uživatele "jenicek") na lokální PC.
scp jenicek@skirit.metacentrum.cz:~/calc/results.txt .
wget
Data lze také stáhnout pomocí příkazu wget(EN). Tento příkaz můžete použít pro všechny soubory dostupné přes ftp nebo http(s) protokoly, což obvykle platí pro stažitelné soubory na nějakém serveru. Přenos dat pomocí wget je rychlejší, ale méně bezpečný než pomocí scp. Doporučujeme ho tedy používat, pokud potřebujete rychle stahovat a nezáleží vám na zabezpečení.
ssh jenicek@skirit.metacentrum.cz # Přihlášení na čelní uzel; nahraďte "jenicek" svým uživatelským jménem.
jenicek@skirit.metacentrum.cz:~$ pwd # Ukaž aktuální adresář.
/storage/brno2/home/jenicek
jenicek@skirit.metacentrum.cz:~$ mkdir data # Vytvoř adresář "data" (sem budeme později data stahovat).
jenicek@skirit.metacentrum.cz:~$ cd data # Vstup do adresáře "data".
jenicek@skirit.metacentrum.cz:~/data$ wget https://www.someServer.org/someData.zip # Ze serveru (= webpage) "https://www.someServer.org" stáhni soubor "someData.zip".
Přenos dat na Windows
Příbuzná témata | |
---|---|
Jak funguje PUTTY (EN) | |
O aplikaci Bitvise SSH Client (EN) | |
O WinSCP (EN) |
|
Používáte-li OS Windows, je potřeba si k přenosu souborů na stroje/ze strojů MetaCentra nainstalovat další software. Doporučujeme WinSCP (emuluje příkaz scp a stahuje z ftp serverů) v kombinaci s PuTTY nebo aplikaci Bitvise SSH Client.
Přenos dat: velké objemy dat
K datovým úložištím (NFS4 serverům) je možné přistupovat přímo, není nutné použít čelní uzly ani jiné stroje. Při kopírování velkých objemů dat (>= 1000 jednotlivých souborů a/nebo >= 100 GB) se důrazně doporučuje kopírovat data přímo z úložiště. Kopírování přes čelní uzel je výrazně pomalejší.
NFS4 server | adresář - directory | velikost - capacity | zálohovací třída - back-up policy | alternativní jména serverů v Perunovi - alternative name / poznámka - note |
---|---|---|---|---|
storage-brno1-cerit.metacentrum.cz | /storage/brno1-cerit/ | 1.8 PB | 2 | nfs-ntc.ics.muni.cz |
storage-brno2.metacentrum.cz | /storage/brno2/ | 306 TB | 2 | |
storage-brno3-cerit.metacentrum.cz | /storage/brno3-cerit/ | WILL BE decomissioned | 2 | data moved to /storage/brno12-cerit/ |
storage-brno4-cerit-hsm.metacentrum.cz | /storage/brno4-cerit-hsm/ | zrušeno - decommissioned | data archived in /storage/brno1-cerit/ | |
storage-brno5-archive.metacentrum.cz | /storage/brno5-archive/ | zrušeno - decommissioned | 3 | nfs.du3.cesnet.cz |
storage-brno6.metacentrum.cz | /storage/brno6/ | zrušeno - decommissioned | 2 | |
storage-brno7-cerit.metacentrum.cz | /storage/brno7-cerit/ | zrušeno - decommissioned | 2 | data archived in /storage/brno1-cerit/ |
storage-brno8.metacentrum.cz | /storage/brno8/ | zrušeno - decommissioned | 3 | in past /storage/ostrava1/, data moved to /storage/brno2/home/USERNAME/brno8 |
storage-brno9-ceitec.metacentrum.cz | /storage/brno9-ceitec/ | zrušeno - decommissioned | 3 | storage-ceitec1.ncbr.muni.cz - pro NCBR CEITEC |
storage-brno10-ceitec-hsm.metacentrum.cz | /storage/brno10-ceitec-hsm/ | zrušeno - decommissioned | 3 | dedicated to NCBR CEITEC |
storage-brno11-elixir.metacentrum.cz | /storage/brno11-elixir/ | 313 TB | 2 | dedicated to ELIXIR-CZ, storage2.elixir-czech.cz |
storage-brno12-cerit.metacentrum.cz | /storage/brno12-cerit/ | 3.4 PB | 2 | ces-hsm.cerit-sc.cz, domovský adresář v nfs4/home/$USER |
storage-budejovice1.metacentrum.cz | /storage/budejovice1/ | 44 TB | 3 | (storage-cb1|storage-cb2).metacentrum.cz |
storage-jihlava1-cerit.metacentrum.cz | /storage/jihlava1-cerit/ | zrušeno - decommissioned | data archived to /storage/brno4-cerit-hsm/fineus, storage-brno4-cerit-hsm.metacentrum.cz, symlink /storage/jihlava1-cerit/ | |
storage-jihlava2-archive.metacentrum.cz | /storage/jihlava2-archive/ | zrušeno - decommissioned | ||
storage-du-cesnet.metacentrum.cz | /storage/du-cesnet/ | 3 | du4.cesnet.cz, optimal archive storage for all MetaCentrum users | |
storage-liberec3-tul.metacentrum.cz | /storage/liberec3-tul/ | 30 TiB | ||
storage-plzen1.metacentrum.cz | /storage/plzen1/ | 352 TB | 2 | |
storage-plzen2-archive.metacentrum.cz | /storage/plzen2-archive/ | zrušeno - decommissioned | nfs.du1.cesnet.cz | |
storage-plzen3-kky.metacentrum.cz | /storage/plzen3-kky/ | zrušeno - decommissioned | nahrazeno plzen4-ntis | |
storage-plzen4-ntis.metacentrum.cz | /storage/plzen4-ntis/ | 200 TiB | 3 | pro cleny skupiny iti/kky |
storage-praha1.metacentrum.cz | /storage/praha1/ | zrušeno - decommissioned | 3 | storage-praha1(a|b).metacentrum.cz |
storage-praha2-natur.metacentrum.cz | /storage/praha2-natur/ | 88 TB | storage-praha2-natur.metacentrum.cz | |
storage-praha4-fzu.metacentrum.cz | /storage/praha4-fzu/ | zrušeno - decommissioned 15 TB | ||
storage-praha6-fzu.metacentrum.cz | /storage/praha6-fzu/ | 76 TB | ||
storage-praha5-elixir.metacentrum.cz | /storage/praha5-elixir/ | 157 TB | 3 | |
storage-pruhonice1-ibot.metacentrum.cz | /storage/pruhonice1-ibot/ | 179 TB | 3 | tilia-nfs.ibot.cas.cz |
storage-vestec1-elixir.metacentrum.cz | /storage/vestec1-elixir/ /storage/praha1/ | 2 | storage-vestec1.elixir-czech.cz | |
Zálohovací třídy jsou popsány v / Back-up policy is described at: Politika zálohování (Back-up policy). Výtah/summary:
|
SFTP
Příbuzná témata | |
---|---|
O WinSCP (EN) | |
SFTP protokol (EN) |
|
OS Windows
Uživatelé OS Windows potřebují SFTP klienta, doporučujeme WinSCP (EN). Jako "target" uveďte vybraný NFS4 server a použijte SFTP file protocol.
Linux
Přenos dat provedete pomocí příkazu sftp. Základní příklady použití najdete níže, podrobnější informace pak na tomto odkazu (EN).
sftp 'META username'@target_NFS4_server # Přihlášení
help # Ukaž dostupné příkazy.
get target_file # Stáhni požadovaný soubor.
get -r target_directory # Stáhni požadovaný adresář.
put target_file # Nahraj požadovaný soubor na server.
put -r target_directory # Nahraj požadovaný adresář na server.
U systémů Ubuntu 14.04+ se při provádění příkazu put -r vyskytuje bug . Pokud put -r selže, vytvořte cílový adresář nejdříve na serveru.
SSH
Další možností je spustit některý z programů pro manipulaci dat přímo na NFSv4 serveru, což můžete udělat pomocí SSH. Příkazy, které operují s velkými objemy dat, běží na NFSv4 serveru mnohem rychleji než na klientském stroji (např. uzel klastru). Na druhé straně mohou tyto operace NFSv4 server snadno přetížit, proto nás před jejich provedením s předstihem kontaktujte.
Poznámka: Skrze SSH není dostupný celý shell a není možné spouštět programy z uživatelských volumů. Na NFSv4 serveru by neměly být počítány žádné výpočetní úlohy. K dispozici jsou pouze tyto příkazy:
- /usr/bin/scp,
- /usr/lib/sftp-server,
- /bin/cp,
- /bin/ls,
- /bin/tar,
- /bin/cat,
- /bin/dd,
- /bin/rm,
- /bin/mkdir,
- /bin/mv,
- /bin/rmdir,
- /bin/chmod,
- /usr/bin/gzip,
- /usr/bin/gunzip
Příklad
Vypiš obsah domovského adresáře na vzdáleném stroji:
ssh USERNAME@depot1.mc.cesnet.cz ls -l
Můžete použít i plnou cestu
ssh USERNAME@depot1.mc.cesnet.cz ls -l /storage/home/USERNAME
Poznámka
- Při kopírování souborů s dd nastavte velikost (parametr bs) alespoň na 1M. Operace budou rychlejší (v porovnání se standardních hodnotou 512 bytů).
- Na serverech úložišť není k dispozici žádný shell. Použijte proto konstrukci ssh user@NFS4.storage.cz command.
Připojení úložiště na lokální stroj
Pokročilí uživatelé si mohou připojit datová úložiště lokálně. Na NFS4 servery se přihlašuje stejným způsobem jako na lokální disk. Více o tomto tématu najdete v následujícím tutoriálu (EN).
Datová úložiště
Příbuzná témata | |
---|---|
Úložiště scratch | |
e-Infrastruktura CESNET |
|
MetaCentrum nabízí tři typy datových úložišť:
Typ úložiště | Základní popis | Obvyklé využití |
---|---|---|
Úložiště scratch | Rychlá úložiště s malou kapacitou | Pro práci s daty během výpočtů |
Disková pole | /storage volumy v MetaCentru | Pro uchovávání dat mezi výpočty |
Hierarchická úložiště | Úložiště s velkou kapacitou | Archivování dat |
Úložiště scratch
Scratchová úložiště jsou přístupná skrze adresáře scratch na výpočetních uzlech. Tato úložiště používejte pouze během počítání. Po skončení úlohy by scratch měl být smazán buď pomocí příkazu v dávkovém skriptu, nebo manuálně. Manuálně je scratch potřeba vymazat i v případě selhání či zabití úlohy. Po 14 dnech se data ve scratchi mažou automaticky.
Disková pole
Disková pole jsou tvořena několika spojenými pevnými disky a jsou přístupná skrze adresáře /storage. Soubory jsou ukládány na multiple drivers, což zajišťuje vyšší rychlost i spolehlivost. Disková pole používejte pro přípravu a ukládání dat mezi výpočetními úlohami.
Disková pole jsou zálohovány pomocí ukládání snapshotů (jednou denně, obvykle v noci), které se se uchovávají po dobu minimálně 14 dnů. Pokud si uživatel omylem data smaže, lze je pomocí snapshotů obnovit. Obecně je tedy možné obnovit data, která existovala den před smazáním. Snapshoty se však ukládají na stejná disková pole jako data samotná, takže v případě selhání diskového pole dojde ke smazání dat i snapshotů. Důrazně tedy doporučujeme zálohovat důležitá data jinde. K archivování dat MetaCentrum nabízí dedikovaná serverová úložiště.
Disková pole s hierarchickým úložištěm
Disková pole s hierarchickým úložištěm mají mnohem robustnější zálohování a jsou určena k archivování. Pro zvýšení spolehlivosti obsahují několik vrstev ukládacích médií. První vrstva je diskové pole, nižší vrstvy sestávají z MAIDs (Massuve Array of Idle Drivers) nebo z knihoven magnetických pásek. Nižší úrovně mají větší kapacitu, ale přistup k datům je pomalejší. Data se mezi vrstvami přesunují automaticky v závislosti na tom, kdy byla naposledy využita. To znamená, že přístup k dlouho nepoužívaným datům může být pomalejší než k datům využitým nedávno. Hierarchická úložiště používejte pro ukládání důležitých dat, která v současné době nepoužíváte.
Archivování a zálohování
Note: Služba datových úložišť je poskytována CESNETem, narozdíl od výpočtů na gridu, které zajišťuje MetaCentrum. Na této stránce najdete pouze přehled služeb datových úložišť. V případě nesrovnalostí se informujte na stránce Oddělení datových úložišť Cesnet nebo kontaktujte uživatelskou podporu support@cesnet.cz (viz Často kladené otázky - Oddělení datových úložišť Cesnet).
Běžná uživatelská data jsou zálohována pouze pomocí snapshotů, nejsou chráněna před ztrátou, pokud dojde k závadě na hardware. Cenná data by proto měla být zálohována na vyhrazených serverech s hierarchickým modelem zálohování dat. Tyto stroje poznáte podle "hms" (hierarchical storage machine) nebo "archive" v jejich názvu.
NFS4 server | adresář - directory | status | alias v Perunovi / aliased in Perun as ; poznámka / note |
---|---|---|---|
storage-du-cesnet.metacentrum.cz | /storage/du-cesnet/ | active | primary space for MetaCentrum users |
storage-brno14-ceitec.metacentrum.cz | /storage/brno14-ceitec/ | active | visible only to NCBR/CEITEC users |
storage-ostrava2-archive.metacentrum.cz | /storage/ostrava2-archive/ | zrušeno - decommissioned | exists formally as symlink to /storage/du-cesnet/ |
storage-brno5-archive.metacentrum.cz | /storage/brno5-archive/ | zrušeno - decommissioned | data will be archived in ---> /storage/du-cesnet |
storage-jihlava2-archive.metacentrum.cz | /storage/jihlava2-archive | zrušeno - decommissioned | data archived in /storage/du-cesnet |
storage-plzen2-archive.metacentrum.cz | /storage/plzen2-archive/ | zrušeno - decommissioned | data archived in /storage/du-cesnet |
storage-brno4-cerit-hsm.metacentrum.cz | /storage/brno4-cerit-hsm/ | zrušeno - decommissioned | data archived in /storage/brno1-cerit/ |
Uživatelé se mohou přihlašovat k jakémukoli z výše uvedených serverů přímo. Doporučujeme však použít adresář /storage/du-cesnet/home/META_username/VO_metacentrum-tape_tape-archive/
pro archivaci nebo pro /storage/du-cesnet/home/META_username/VO_metacentrum-tape_tape/
zálohování.
ssh jenicek@skirit.metacentrum.cz # Přihlaste se na jakýkoliv frontend. Nahraďte "jenicek" vaším přihlašovacím jménem.
cd /storage/du-cesnet/home/jenicek/VO_metacentrum-tape_tape-archive/ # Vstoupí do adresáře pro archivování dat.
cd /storage/du-cesnet/home/jenicek/VO_metacentrum-tape_tape/ # Vstoupí do adresáře pro zálohování dat.
Oba tyto adresáře jsou tzv. symlinky (symbolické odkazy ), které pouze ukazují na skutečný HSM server. Na rozdíl od "normální" cesty, symlink není závislý na aktuálně používaném HSM serveru. Pokud se starý HSM server (v jedné lokaci) nahradí novým (může být v jiné lokaci) , odkaz bude stále platný a není potřeba přepisovat cestu v zálohovacích či archivovacích skriptech.
Data nikdy nenechávejte přímo v domovském adresáři, např. v /storage/du-cesnet/home/META_username/
. Domovské adresáře by měly sloužit pouze k uchovávání SSH klíčů, vytváření odkazů na adresáře s daty a jiných konfiguračních souborů. Z tohoto důvodu mají domovské adresáře nastavenou velmi malou kvótu, viz https://du.cesnet.cz/cs/navody/home-migrace-plzen/start#backup_archive.
Zálohování nebo archivace?
Technicky není mezi adresáři žádný rozdíl. Je však rozdíl v politice zálohování.
Permanentní datové archivy mají obvykle omezenou velikost a jsou určeny pro data, které si uživatel chce ponechat i do budoucna. Proto mají uživatelé nastavenou kvótu pro objem dat a/nebo počet souborů. Tato data s však nikdy nemažou. Sem ukládejte data s trvalou hodnotou.
Zálohování dat slouží k ochraně dat, která nebudou potřeba dlouhodobě: k jejich smazání dojde po 12 měsících. Zálohování využijte, pokud chcete ochránit dočasná data před HW selháním.
Několik poznámek
- Pro zjištění aktuálního využití navštivte https://metavo.metacentrum.cz/pbsmon2/nodes/physical, sekce "Hierarchická úložiště"
- Dokumentaci k adresářové struktuře HMS serverů najdete na https://du.cesnet.cz/wiki/doku.php/en/navody/home-migrace-plzen/start
- Kompletní dokumentace k úložištím: https://du.cesnet.cz/wiki/doku.php/en/navody/start
- Uživatelské kvóty na jednotlivých úložištích najdete na portálu MetaCentra
- Na úložiště HMS se uživatelské kvóty nevztahují. Platí pouze technické omezení 5TB, ?involving an overloading of the HSM with a one-time data copy, is applied?
Přenos souborů do/z archivu
Obecně platí, že čím méně je v archivu souborů, tím lépe (operace se jsou pak rychlejší a subsystém úložiště méně zatížen, na druhou stranu balení souborů stěžuje vyhledávání). Pokud potřebujete archivovat velký počet malých souborů, důrazně doporučujeme je předem zabalit. Často je nastavena kvóta nejen pro velikost, ale také pro počet souborů.
- Pokud máte velké soubory (stovky MB a více), není potřeba je balit.
- Pokud jsou vaše soubory menší, zabalte je do tar nebo zip archivu.
- Z technického hlediska má optimální "balík" dat 500 MB a více.
- Skrze čelní uzly můžete přesouvat pouze několik málo malých souborů! Pokud vaše data tuto podmínku nesplňují, použijte pro manipulaci s nimi dávkovou a/nebo interaktivní úlohu, např.
qsub -I -l select=1:ncpus=1:mem=2gb:scratch_local=2gb -l walltime=48:00:00
. - Nezapomeňte, že ?master? domovské adresáře každého HSM úložiště jsou určeny pouze pro inicializaci skriptů, a proto mají nastavenu kvótu pouze 50 MB.
Příkaz tar
Linuxový příkaz tar (tape archiver) balí soubory a adresáře do jednoho souboru: archivu. Samotný tar velikost souborů nekomprimuje. Výsledná velikost archivu je proto přibližně stejná jako součet velikostí jednotlivých souborů. Příkaz tar lze použít v kombinaci s příkazy, které komprimují soubory, např. s příkazem gzip.
Ve všech příkladech možnost v příkazu tar znamená "verbouse" a poskytuje detailnější přehled o tom, jak archivování postupuje.
- V /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive vytvoř (tar c) nezkomprimovaný archiv adresáře (tar f)
~/my-archive
a jeho obsahu:
tar cvf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz ~/my-archive
- V /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive vytvoř archiv adresáře
~/my-archive
a zkomprimuj ho pomocí příkazu gzip (tarz):
tar czvf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz ~/my-archive
- Vypiš (tar t) obsah existujícího adresáře:
tar tzf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz
- Rozbal CELÝ archiv
my-archive.tgz
, který se nachází vstorage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/
, do současného adresáře:
tar xzvf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz
- Rozbal ČÁST archivu:
tar tzf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz # Vypiš obsah archivu.
# Rozbal pouze soubor PATH1/file1 a adresář PATH2/dir2 do aktuálního adresáře.
tar xzvf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz "PATH1/file1" "PATH2/dir2"
Příkaz tar si můžete přizpůsobit mnoha dalšími možnostmi. Pro jejich plný popis si přečtěte manuál (man tar).
Sdílení dat ve skupině
Chcete, li sdílet svá data ve skupině, postupujte podle následujícího návodu Sdílení dat ve skupině