Práce s daty

From MetaCentrum
Jump to navigation Jump to search

(English version)


V tomto průvodci najdete nejdůležitější informace ohledně zacházení s daty, jejich ukládání a archivování.

Uchovávání dat na storagích: velké množství souborů

Uchovávání velkého množství souborů (>=milion souborů) v domovských adresářích uživatelů je problematické, protože se tím značně prodlužuje doba nutná k jejich zálohování i k jakékoliv další manipulaci s uživatelskými daty. Velikost souborů je v takových případech druhotná, limitujícím faktorem je počet. V zájmu udržení přijatelné časové náročnosti servisních zásahů je počet souborů v domovských adresářích limitován kvótou. Uživatelé, kteří tuto kvótu překročí, by měli nepotřebná data buď smazat, nebo soubory archivovat do větších celků. Uživatelé, kteří skutečně potřebují v domovském adresáři pracovat s velkým množstvím souborů, mohou požádat o vyjímku na meta@cesnet.cz.

Jak zjistit kvótu na počet souborů

Svou bilanci kvót na celkový objem dat i na počet souborů najdete

Jak odstranit, zabalit a/nebo archivovat přebytečné soubory

V případě, že se jedná o soubory, které nepotřebujete, odstraňte je přímo ze storage příkazem rm, např..

(BUSTER)melounova@tarkil:~$ ssh melounova@storage-brno6.metacentrum.cz rm -rf ~/junk_dir

Tento příkaz také můžete vložit do skriptu a ten poslat jako dávkovou úlohu:

(BUSTER)melounova@tarkil:~$ qsub -l walltime=24:00:00  remove_junk_dir.sh

V případě, že se jedná o soubory, které potřebujete, zabalte je do větších celků příkazem tar, který můžete spustit buď přímo z příkazové řádky nebo jej vložit do dávkové úlohy:

(BUSTER)melounova@tarkil:~$ ssh melounova@storage-brno6.metacentrum.cz tar -cf not_junk_dir.tar ~/not_junk_dir
(BUSTER)melounova@tarkil:~$ qsub -l walltime=24:00:00  tar_my_files.sh

Pokud máte v domovském adresáři dostatek místa, můžete v něm zabalená data ponechat; nicméně doporučujeme uživatelům, aby data, která mají trvalou hodnotu a se kterými aktuálně nepracují, archivovali.

Pokud skutečně potřebujete pracovat ve svém domovském adresáři s velkým množstvím souborů, kontaktujte nás na meta@cesnet.cz.

Přenos dat: menší objem dat

Menší objemy dat (stovky samostatných souborů a/nebo méně než 100 GB) můžete přenést z/na stroje MetaCetra velmi jednoduše.

Přesnos dat na Linuxu

scp

Ke kopírování na stroje MetaCentra použijte příkaz scp. Čelní uzel "skirit.metacentrum.cz" můžete nahradit libovolným jiným čelním uzlem.

scp my_file.txt jenicek@skirit.metacentrum.cz: # Zkopíruj soubor "my_file.txt" do domovského adresáře uživatele "jenicek" na čelním uzlu "skirit.metacentrum.cz".

Tento příkaz můžete použít i pro přenos dat opačným směrem: tj. z MetaCentra na vaše PC.

# copy file "results.txt" Zkopíruj soubor z adresáře "calc" (který se nachází v domovském adresáři uživatele "jenicek") na lokální PC.
scp jenicek@skirit.metacentrum.cz:~/calc/results.txt .

wget

Data lze také stáhnout pomocí příkazu wget(EN). Tento příkaz můžete použít pro všechny soubory dostupné přes ftp nebo http(s) protokoly, což obvykle platí pro stažitelné soubory na nějakém serveru. Přenos dat pomocí wget je rychlejší, ale méně bezpečný než pomocí scp. Doporučujeme ho tedy používat, pokud potřebujete rychle stahovat a nezáleží vám na zabezpečení.

ssh jenicek@skirit.metacentrum.cz # Přihlášení na čelní uzel; nahraďte "jenicek" svým uživatelským jménem.
jenicek@skirit.metacentrum.cz:~$ pwd # Ukaž aktuální adresář.
/storage/brno2/home/jenicek
jenicek@skirit.metacentrum.cz:~$ mkdir data # Vytvoř adresář "data" (sem budeme později data stahovat).
jenicek@skirit.metacentrum.cz:~$ cd data # Vstup do adresáře "data".
jenicek@skirit.metacentrum.cz:~/data$ wget https://www.someServer.org/someData.zip # Ze serveru (= webpage) "https://www.someServer.org" stáhni soubor "someData.zip".

Přenos dat na Windows

Příbuzná témata
Jak funguje PUTTY (EN)
O aplikaci Bitvise SSH Client (EN)
O WinSCP (EN)

Používáte-li OS Windows, je potřeba si k přenosu souborů na stroje/ze strojů MetaCentra nainstalovat další software. Doporučujeme WinSCP (emuluje příkaz scp a stahuje z ftp serverů) v kombinaci s PuTTY nebo aplikaci Bitvise SSH Client.

Přenos dat: velké objemy dat

K datovým úložištím (NFS4 serverům) je možné přistupovat přímo, není nutné použít čelní uzly ani jiné stroje. Při kopírování velkých objemů dat (>= 1000 jednotlivých souborů a/nebo >= 100 GB) se důrazně doporučuje kopírovat data přímo z úložiště. Kopírování přes čelní uzel je výrazně pomalejší.


NFS4 server adresář - directory velikost - capacity zálohovací třída - back-up policy alternativní jména serverů v Perunovi - alternative name / poznámka - note
storage-brno1-cerit.metacentrum.cz /storage/brno1-cerit/ 1.8 PB 2 nfs-ntc.ics.muni.cz
/storage/brno2/ 110 TB 2 accessible through storage-brno6 temporarily, path ../fsbrno2/home/$LOGNAME
storage-brno3-cerit.metacentrum.cz /storage/brno3-cerit/ 932 TB 2 nfs-kat.cerit-sc.cz
storage-brno4-cerit-hsm.metacentrum.cz /storage/brno4-cerit-hsm/ zrušeno - decommissioned data archived in /storage/brno1-cerit/
storage-brno5-archive.metacentrum.cz /storage/brno5-archive/ zrušeno - decommissioned 3 nfs.du3.cesnet.cz
storage-brno6.metacentrum.cz /storage/brno6/ 262 TB 2
storage-brno7-cerit.metacentrum.cz /storage/brno7-cerit/ zrušeno - decommissioned 2 data archived in /storage/brno1-cerit/
storage-brno8.metacentrum.cz /storage/brno8/ 88 TB 3 in past /storage/ostrava1/
storage-brno9-ceitec.metacentrum.cz /storage/brno9-ceitec/ 262 TB 3 storage-ceitec1.ncbr.muni.cz - pro NCBR CEITEC
storage-brno10-ceitec-hsm.metacentrum.cz /storage/brno10-ceitec-hsm/ 3 dedicated to NCBR CEITEC
storage-brno11-elixir.metacentrum.cz /storage/brno11-elixir/ 313 TB 2 dedicated to ELIXIR-CZ, storage2.elixir-czech.cz
storage-brno12-cerit.metacentrum.cz /storage/brno12-cerit/ 3.4 PB 2 ces-hsm.cerit-sc.cz, domovský adresář v nfs4/home/$USER
storage-budejovice1.metacentrum.cz /storage/budejovice1/ 44 TB 3 (storage-cb1|storage-cb2).metacentrum.cz
storage-jihlava1-cerit.metacentrum.cz /storage/jihlava1-cerit/ zrušeno - decommissioned data archived to /storage/brno4-cerit-hsm/fineus, storage-brno4-cerit-hsm.metacentrum.cz, symlink /storage/jihlava1-cerit/
storage-jihlava2-archive.metacentrum.cz /storage/jihlava2-archive/ zrušeno - decommissioned
storage-du-cesnet.metacentrum.cz /storage/du-cesnet/ 3 du4.cesnet.cz, optimal archive storage for all MetaCentrum users
storage-liberec3-tul.metacentrum.cz /storage/liberec3-tul/ 30 TiB
storage-plzen1.metacentrum.cz /storage/plzen1/ 352 TB 2
storage-plzen2-archive.metacentrum.cz /storage/plzen2-archive/ zrušeno - decommissioned nfs.du1.cesnet.cz
storage-plzen3-kky.metacentrum.cz /storage/plzen3-kky/ zrušeno - decommissioned nahrazeno plzen4-ntis
storage-plzen4-ntis.metacentrum.cz /storage/plzen4-ntis/ 200 TiB 3 pro cleny skupiny iti/kky
storage-praha1.metacentrum.cz /storage/praha1/ zrušeno - decommissioned 3 storage-praha1(a|b).metacentrum.cz
storage-praha2-natur.metacentrum.cz /storage/praha2-natur/ 88 TB storage-praha2-natur.metacentrum.cz
storage-praha4-fzu.metacentrum.cz /storage/praha4-fzu/ zrušeno - decommissioned 15 TB
storage-praha6-fzu.metacentrum.cz /storage/praha6-fzu/ 76 TB
storage-praha5-elixir.metacentrum.cz /storage/praha5-elixir/ 157 TB 3
storage-pruhonice1-ibot.metacentrum.cz /storage/pruhonice1-ibot/ 179 TB 3 tilia-nfs.ibot.cas.cz
storage-vestec1-elixir.metacentrum.cz /storage/vestec1-elixir/ /storage/praha1/ 3 storage-vestec1.elixir-czech.cz
Zálohovací třídy jsou popsány v / Back-up policy is described at: Politika zálohování (Back-up policy). Výtah/summary:
  • třída 2 - záloha (pouze) formou časových řezů / class 2 - backup (only) in a form of time slices
  • třída 3 - data se záložní kopií / class 3 - data with a backup copy


SFTP

Příbuzná témata
O WinSCP (EN)
SFTP protokol (EN)

OS Windows

Uživatelé OS Windows potřebují SFTP klienta, doporučujeme WinSCP (EN). Jako "target" uveďte vybraný NFS4 server a použijte SFTP file protocol.

Linux

Přenos dat provedete pomocí příkazu sftp. Základní příklady použití najdete níže, podrobnější informace pak na tomto odkazu (EN).

sftp 'META username'@target_NFS4_server # Přihlášení
help # Ukaž dostupné příkazy.
get target_file # Stáhni požadovaný soubor.
get -r target_directory # Stáhni požadovaný adresář.
put target_file # Nahraj požadovaný soubor na server.
put -r target_directory # Nahraj požadovaný adresář na server.

U systémů Ubuntu 14.04+ se při provádění příkazu put -r vyskytuje bug . Pokud put -r selže, vytvořte cílový adresář nejdříve na serveru.

SFTP1.png

SSH

Další možností je spustit některý z programů pro manipulaci dat přímo na NFSv4 serveru, což můžete udělat pomocí SSH. Příkazy, které operují s velkými objemy dat, běží na NFSv4 serveru mnohem rychleji než na klientském stroji (např. uzel klastru). Na druhé straně mohou tyto operace NFSv4 server snadno přetížit, proto nás před jejich provedením s předstihem kontaktujte.

Poznámka: Skrze SSH není dostupný celý shell a není možné spouštět programy z uživatelských volumů. Na NFSv4 serveru by neměly být počítány žádné výpočetní úlohy. K dispozici jsou pouze tyto příkazy:


  • /usr/bin/scp,
  • /usr/lib/sftp-server,
  • /bin/cp,
  • /bin/ls,
  • /bin/tar,
  • /bin/cat,
  • /bin/dd,
  • /bin/rm,
  • /bin/mkdir,
  • /bin/mv,
  • /bin/rmdir,
  • /bin/chmod,
  • /usr/bin/gzip,
  • /usr/bin/gunzip

Příklad

Vypiš obsah domovského adresáře na vzdáleném stroji:

ssh USERNAME@depot1.mc.cesnet.cz ls -l

Můžete použít i plnou cestu

ssh USERNAME@depot1.mc.cesnet.cz ls -l /storage/home/USERNAME

Poznámka

  • Při kopírování souborů s dd nastavte velikost (parametr bs) alespoň na 1M. Operace budou rychlejší (v porovnání se standardních hodnotou 512 bytů).
  • Na serverech úložišť není k dispozici žádný shell. Použijte proto konstrukci ssh user@NFS4.storage.cz command.

Připojení úložiště na lokální stroj

Pokročilí uživatelé si mohou připojit datová úložiště lokálně. Na NFS4 servery se přihlašuje stejným způsobem jako na lokální disk. Více o tomto tématu najdete v následujícím tutoriálu (EN).

Datová úložiště

Příbuzná témata
Úložiště scratch
e-Infrastruktura CESNET

MetaCentrum nabízí tři typy datových úložišť:

Typ úložiště Základní popis Obvyklé využití
Úložiště scratch Rychlá úložiště s malou kapacitou Pro práci s daty během výpočtů
Disková pole /storage volumy v MetaCentru Pro uchovávání dat mezi výpočty
Hierarchická úložiště Úložiště s velkou kapacitou Archivování dat

Úložiště scratch

Scratchová úložiště jsou přístupná skrze adresáře scratch na výpočetních uzlech. Tato úložiště používejte pouze během počítání. Po skončení úlohy by scratch měl být smazán buď pomocí příkazu v dávkovém skriptu, nebo manuálně. Manuálně je scratch potřeba vymazat i v případě selhání či zabití úlohy. Po 14 dnech se data ve scratchi mažou automaticky.

Disková pole

Disková pole jsou tvořena několika spojenými pevnými disky a jsou přístupná skrze adresáře /storage. Soubory jsou ukládány na multiple drivers, což zajišťuje vyšší rychlost i spolehlivost. Disková pole používejte pro přípravu a ukládání dat mezi výpočetními úlohami.

Disková pole jsou zálohovány pomocí ukládání snapshotů (jednou denně, obvykle v noci), které se se uchovávají po dobu minimálně 14 dnů. Pokud si uživatel omylem data smaže, lze je pomocí snapshotů obnovit. Obecně je tedy možné obnovit data, která existovala den před smazáním. Snapshoty se však ukládají na stejná disková pole jako data samotná, takže v případě selhání diskového pole dojde ke smazání dat i snapshotů. Důrazně tedy doporučujeme zálohovat důležitá data jinde. K archivování dat MetaCentrum nabízí dedikovaná serverová úložiště.

Disková pole s hierarchickým úložištěm

Disková pole s hierarchickým úložištěm mají mnohem robustnější zálohování a jsou určena k archivování. Pro zvýšení spolehlivosti obsahují několik vrstev ukládacích médií. První vrstva je diskové pole, nižší vrstvy sestávají z MAIDs (Massuve Array of Idle Drivers) nebo z knihoven magnetických pásek. Nižší úrovně mají větší kapacitu, ale přistup k datům je pomalejší. Data se mezi vrstvami přesunují automaticky v závislosti na tom, kdy byla naposledy využita. To znamená, že přístup k dlouho nepoužívaným datům může být pomalejší než k datům využitým nedávno. Hierarchická úložiště používejte pro ukládání důležitých dat, která v současné době nepoužíváte.

Archivování a zálohování

ZarovkaMala.png Note: Služba datových úložišť je poskytována CESNETem, narozdíl od výpočtů na gridu, které zajišťuje MetaCentrum. Na této stránce najdete pouze přehled služeb datových úložišť. V případě nesrovnalostí se informujte na stránce Oddělení datových úložišť Cesnet nebo kontaktujte uživatelskou podporu support@cesnet.cz (viz Často kladené otázky - Oddělení datových úložišť Cesnet).

Běžná uživatelská data jsou zálohována pouze pomocí snapshotů, nejsou chráněna před ztrátou, pokud dojde k závadě na hardware. Cenná data by proto měla být zálohována na vyhrazených serverech s hierarchickým modelem zálohování dat. Tyto stroje poznáte podle "hms" (hierarchical storage machine) nebo "archive" v jejich názvu.

NFS4 server adresář - directory status alias v Perunovi / aliased in Perun as ; poznámka / note
storage-ostrava2-archive.metacentrum.cz /storage/ostrava2-archive/ ACTIVE du4.cesnet.cz; nfs.du4.cesnet.cz; symlink to ---> /storage/du-cesnet/
storage-brno10-ceitec-hsm.metacentrum.cz /storage/brno10-ceitec-hsm/ dedicated to NCBR CEITEC for NCBR/CEITEC users only
storage-brno5-archive.metacentrum.cz /storage/brno5-archive/ bude zrušeno - decommission planned data will be archived in ---> /storage/du-cesnet
storage-jihlava2-archive.metacentrum.cz /storage/jihlava2-archive zrušeno - decommissioned data archived in /storage/du-cesnet
storage-plzen2-archive.metacentrum.cz /storage/plzen2-archive/ zrušeno - decommissioned data archived in /storage/du-cesnet
storage-brno4-cerit-hsm.metacentrum.cz /storage/brno4-cerit-hsm/ zrušeno - decommissioned data archived in /storage/brno1-cerit/

Uživatelé se mohou přihlašovat k jakémukoli z výše uvedených serverů přímo. Doporučujeme však použít adresář /storage/du-cesnet/home/META_username/VO_metacentrum-tape_tape-archive/ pro archivaci nebo pro /storage/du-cesnet/home/META_username/VO_metacentrum-tape_tape/ zálohování.

ssh jenicek@skirit.metacentrum.cz # Přihlaste se na jakýkoliv frontend. Nahraďte "jenicek" vaším přihlašovacím jménem.
cd /storage/du-cesnet/home/jenicek/VO_metacentrum-tape_tape-archive/ # Vstoupí do adresáře pro archivování dat.
cd /storage/du-cesnet/home/jenicek/VO_metacentrum-tape_tape/ # Vstoupí do adresáře pro zálohování dat.

Oba tyto adresáře jsou tzv. symlinky (symbolické odkazy ), které pouze ukazují na skutečný HSM server. Na rozdíl od "normální" cesty, symlink není závislý na aktuálně používaném HSM serveru. Pokud se starý HSM server (v jedné lokaci) nahradí novým (může být v jiné lokaci) , odkaz bude stále platný a není potřeba přepisovat cestu v zálohovacích či archivovacích skriptech.

Data nikdy nenechávejte přímo v domovském adresáři, např. v /storage/du-cesnet/home/META_username/. Domovské adresáře by měly sloužit pouze k uchovávání SSH klíčů, vytváření odkazů na adresáře s daty a jiných konfiguračních souborů. Z tohoto důvodu mají domovské adresáře nastavenou velmi malou kvótu, viz https://du.cesnet.cz/cs/navody/home-migrace-plzen/start#backup_archive.

Zálohování nebo archivace?

Technicky není mezi adresáři žádný rozdíl. Je však rozdíl v politice zálohování.

Permanentní datové archivy mají obvykle omezenou velikost a jsou určeny pro data, které si uživatel chce ponechat i do budoucna. Proto mají uživatelé nastavenou kvótu pro objem dat a/nebo počet souborů. Tato data s však nikdy nemažou. Sem ukládejte data s trvalou hodnotou.

Zálohování dat slouží k ochraně dat, která nebudou potřeba dlouhodobě: k jejich smazání dojde po 12 měsících. Zálohování využijte, pokud chcete ochránit dočasná data před HW selháním.

Několik poznámek

Přenos souborů do/z archivu

Obecně platí, že čím méně je v archivu souborů, tím lépe (operace se jsou pak rychlejší a subsystém úložiště méně zatížen, na druhou stranu balení souborů stěžuje vyhledávání). Pokud potřebujete archivovat velký počet malých souborů, důrazně doporučujeme je předem zabalit. Často je nastavena kvóta nejen pro velikost, ale také pro počet souborů.

  • Pokud máte velké soubory (stovky MB a více), není potřeba je balit.
  • Pokud jsou vaše soubory menší, zabalte je do tar nebo zip archivu.
  • Z technického hlediska má optimální "balík" dat 500 MB a více.
  • Skrze čelní uzly můžete přesouvat pouze několik málo malých souborů! Pokud vaše data tuto podmínku nesplňují, použijte pro manipulaci s nimi dávkovou a/nebo interaktivní úlohu, např. qsub -I -l select=1:ncpus=1:mem=2gb:scratch_local=2gb -l walltime=48:00:00.
  • Nezapomeňte, že ?master? domovské adresáře každého HSM úložiště jsou určeny pouze pro inicializaci skriptů, a proto mají nastavenu kvótu pouze 50 MB.

Příkaz tar

Linuxový příkaz tar (tape archiver) balí soubory a adresáře do jednoho souboru: archivu. Samotný tar velikost souborů nekomprimuje. Výsledná velikost archivu je proto přibližně stejná jako součet velikostí jednotlivých souborů. Příkaz tar lze použít v kombinaci s příkazy, které komprimují soubory, např. s příkazem gzip.

Ve všech příkladech možnost v příkazu tar znamená "verbouse" a poskytuje detailnější přehled o tom, jak archivování postupuje.

  • V /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive vytvoř (tar c) nezkomprimovaný archiv adresáře (tar f) ~/my-archive a jeho obsahu:

tar cvf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz ~/my-archive

  • V /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive vytvoř archiv adresáře ~/my-archive a zkomprimuj ho pomocí příkazu gzip (tarz):

tar czvf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz ~/my-archive

  • Vypiš (tar t) obsah existujícího adresáře:

tar tzf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz

  • Rozbal CELÝ archiv my-archive.tgz, který se nachází v storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/, do současného adresáře:

tar xzvf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz

  • Rozbal ČÁST archivu:
tar tzf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz # Vypiš obsah archivu.
# Rozbal pouze soubor PATH1/file1 a adresář PATH2/dir2 do aktuálního adresáře.
tar xzvf /storage/du-cesnet/home/USER/VO_metacentrum-tape_tape-archive/my-archive.tgz "PATH1/file1" "PATH2/dir2"

Příkaz tar si můžete přizpůsobit mnoha dalšími možnostmi. Pro jejich plný popis si přečtěte manuál (man tar).