Práce s archivními daty

Z MetaCentrum
Přejít na: navigace, hledání

(English version)

Archivní data jsou obvykle cenná data, ke kterým se přistupuje jen zřídka. Taková data není vhodné, z hlediska ceny, ukládat na standardních diskových polích. CESNET a CERIT-SC pro tyto účely provozuje specializovaná hiearchická úložiště (HSM). Aktuální stav hiearchických úložišť CESNETu je popsán na stránkach oddělení datových úložišť CESNET http://du.cesnet.cz.


Následuje návod, jak přenášet data z diskových polích připojených ke clusterům MetaCentra na archivní HSM:

Terminologie

Zdrojové úložiště je diskové pole /storage/LOKALITA/home/, ve kterém jsou aktálně Vaše data vhodná k archivaci.

  • Pro zjednodušení, umístěte taková data do adresáře "my-archive", který si vytvoříte.

Cílové úložiště je hiearchické (archivní) úložiště

  • Ke zdrojům MetaCentra jsou archivní úložiště připojena jako /storage, ale s poznámkou "-archive" nebo "-hsm" v názvu úložiště.

Seznam úložišť

Zálohovací třídy jsou popsány v / Back-up policy is described at: Politika_zálohování (Back-up policy). Výtah/summary:

  • třída 2 - záloha (pouze) formou časových řezů / class 2 - backup (only) in a form of time slices
  • třída 3 - data se záložní kopií / class 3 - data with a backup copy
NFS4 server adresář - directory velikost - capacity zálohovací třída - back-up policy alternativní jména serverů v Perunovi - alternative name / poznámka - note
storage-brno1-cerit.metacentrum.cz /storage/brno1-cerit/ 1.8 PB 2 nfs-ntc.ics.muni.cz
storage-brno2.metacentrum.cz /storage/brno2/ 110 TB 3 (nienna1|nienna2|nienna-home).ics.muni.cz
storage-brno3-cerit.metacentrum.cz /storage/brno3-cerit/ 932 TB 2 nfs-kat.cerit-sc.cz
storage-brno4-cerit-hsm.metacentrum.cz /storage/brno4-cerit-hsm/ zrušeno - decommissioned data archived in /storage/brno1-cerit/
storage-brno5-archive.metacentrum.cz /storage/brno5-archive/ 5 387 TiB 3 nfs.du3.cesnet.cz
storage-brno6.metacentrum.cz /storage/brno6/ 262 TB 2
storage-brno7-cerit.metacentrum.cz /storage/brno7-cerit/ ruší se - decommissioned 2 data archived in /storage/brno1-cerit/
storage-brno8.metacentrum.cz /storage/brno8/ 88 TB 3 in past /storage/ostrava1/
storage-brno9-ceitec.metacentrum.cz /storage/brno9-ceitec/ 262 TB 3 storage-ceitec1.ncbr.muni.cz - pro NCBR CEITEC
storage-brno10-ceitec-hsm.metacentrum.cz /storage/brno10-ceitec-hsm/ 3 dedicated to NCBR CEITEC
storage-brno11-elixir.metacentrum.cz /storage/brno11-elixir/ 313 TB 2 dedicated to ELIXIR-CZ
storage-budejovice1.metacentrum.cz /storage/budejovice1/ 44 TB 3 (storage-cb1|storage-cb2).metacentrum.cz
storage-jihlava1-cerit.metacentrum.cz /storage/jihlava1-cerit/ zrušeno - decommissioned data archived to /storage/brno4-cerit-hsm/fineus, storage-brno4-cerit-hsm.metacentrum.cz, symlink /storage/jihlava1-cerit/
storage-jihlava2-archive.metacentrum.cz /storage/jihlava2-archive 2 050 TiB 3
storage-liberec3-tul.metacentrum.cz /storage/liberec3-tul/ 30 TiB
storage-plzen1.metacentrum.cz /storage/plzen1/ 352 TB 2 (storage-eiger1|storage-eiger2|storage-eiger3).zcu.cz
storage-plzen2-archive.metacentrum.cz /storage/plzen2-archive/ zrušeno - decommissioned nfs.du1.cesnet.cz
storage-plzen3-kky.metacentrum.cz /storage/plzen3-kky/ 73 TiB 3
storage-praha1.metacentrum.cz /storage/praha1/ 100 TB 3 storage-praha1(a|b).metacentrum.cz
storage-praha4-fzu.metacentrum.cz /storage/praha4-fzu/ 15 TB
storage-praha5-elixir.metacentrum.cz /storage/praha5-elixir/ 157 TB 3
Poznámka 1: Pro ověření nastavení individuální kvóty na jednotlivých úložištích navštivte web MetaCentra.
Poznámka 2: Uživatelská kvóta na HSM uložištích (s příponou -archive nebo -hsm) není aplikována (aplikováno je pouze omezení na jednorázové přeplnění první vrstvy HSM, a to na velikost 5TB).

Vhodné formáty pro ukládání dat v archivu

Obecně platí, že čím méně (malých) souborů je v archivu, tím lépe. Zrychlí se tím rychlost práce s daty a zefektivňuje využití HSM. Na druhou stranu balení dat (zip, rar,...) zesložiťuje prohledávání archivu.

Doporučujeme:

  • pokud jsou Vaše soubory převážně velké (stovky MB, GB, ...), nebalte je, přesuňte je jedna-ku-jedné do archivu
  • pokud jsou Vaše soubory malé a neplánujete prohledávat jednotlivé soubory v archivu, zabalte je (tar, zip nebo 7z)
  • pokud máte soubory sice malé, ale potřebujete s nimi čas od času pracovat, přesuňte je do archivu jedna-ku-jedné

Kam archivovat

  • pro spousty malých souborů nepoužívejte HSM úložiště v Plzni, které má, z provozních důvodů, nastavený nízký limit na maximální počet souborů (plzen2-archive má limit 50000 souborů).
  • Velké soubory nebo balené soubory (tar, zip, 7z) můžete archivovat na kterémkoliv HSM úložišti.

Přesun souborů do/z archivu

Důležité: NEPOUŽÍVEJTE čelní uzly pro cokoliv jiného než kopírování/přesun malých objemů dat! Pro cokoliv většího si naplánujte (interaktivní) úlohu.
Poznámka: Přesun dat může být naplánován jako běžná úloha vykonávající příkazy tar/rsync (podle návodu níže). V takovém případě se před smazáním zdrojových dat ujistěte, že kopie proběhla korektně.

Doporučujeme úlohu naplánovat na cluster, který je poblíž zdrojovým datům, např. (pokud máte zdroj dat v Brně)

qsub -I -l select=1:ncpus=1:mem=2gb:scratch_local=2gb:brno=True -l walltime=48:00:00

Warning.gif WARNING: Základní domovský adresář každého u HSM uložišť (např. /storage/plzen2-archive/home/$USER/) je určen pouze pro uložení inicializačních skriptů, a proto má omezenou kvótu na 50MB. Pro archivaci Vašich dat proto využijte podadresář VO_metacentrum-tape_tape (tj. např. /storage/plzen2-archive/home/$USER/VO_metacentrum-tape_tape), na který se toto omezení nevztahuje.

Zabalení dat k archivaci

  • Zabalení dat k archivaci
tar cfz /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my-archive.tgz my-archive
  • Zobrazení obsahu archivu
tar tzf /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my-archive.tgz
  • pokud se archiv zkopíroval úspěšně, smažte data na zdrojovém úložišti (nepoužívejte volbu taru --remove-files k uvolnění prostoru za běhu příkazu, při chybě zápisu do archivu může vést ke ztrátě dat).
  • Obnovení ČÁSTI dat z archivu:
    • změňte aktuální pracovní adresář na místo, kam chcete data obnovit a určete část archivu , kterou chcete obnovit
    tar tzf /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my-archive.tgz
    • dále použijte:
      tar xzvf /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my-archive.tgz "PATH1/file1" "PATH2/dir2"
    nebo (v případě, že chcete použít "wildcard patterns")
    tar xzvf /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my-archive.tgz --wildcards "PATH1/files*" "PATH2/dirs*"

Přenos dat jedna-ku-jedné (bez balení)

  • Přenos dat do archivu bez balení a komprimování:
rsync -avHS --no-g my-archive /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my-archive
  • Pokud příkaz zhavaruje, pusťe jej ještě jednou (měl by pokračovat od místa přerušení).
  • Podobně pokud chcete aktualizovat data v archivu, pusťte příkaz znovu.
  • Obnova všech dat z archivu
    rsync -avHS --no-g /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my_archive /storage/DESTINATION/home/USER/my_data_recovery/my_archive
  • Obnovení ČÁSTI dat z archivu:
    • označte část dat v archivu, kterou chcete obnovit (např. vylistujte seznam souborů v archivu běžným způsobem příkazem ls)
    ls /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my-archive
    • a dále použijte
      rsync -avHS --no-g /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my_archive/DIR1 /storage/DESTINATION/home/USER/my_data_recovery/DIR1
    NEBO (pokud obnovujete malý počet souborů)
    cp -r /storage/DESTINATION-archive/home/USER/VO_metacentrum-tape_tape/my-archive/PATH1/dirs* /storage/DESTINATION/home/USER/my_data_recovery

Tipy

1. Přenos dat ne-interaktivní úlohou

Větší objem dat je možné přenést standardní (neinteraktivní) úlohou:

qsub -m abe -l select=1

V rámci úlohy proveďte tar/rsync příkladu uvedené výše, potvrďte příkazem enter a dokončete ctrl+d. Tím se naplánáje PBS úloha, o jejím zahájení/ukončení/chybě budete informováni e-mailem. Standardní /error výstup najdete v souborech STDIN.*

2. Migrace dat mezi dvěma úložišti

Všechny návody popsané výše mohou být využity pro přenášení dat mezi dvěma libovolnými úložišti. Např. pro přenost dat ze staršího pomalého /storage/brno2 na nové a rychlé /storage/ostrava1 postupujte takto:

rsync -avHS --no-g /storage/brno2/home/USER/my-archive /storage/ostrava1/home/USER