Zálohování a archivace

From MetaCentrum
Jump to: navigation, search

(English version)

Related topics
Práce s archivními daty
CESNET Storage Department

Tento dokument popisuje periodické zálohování a jednorázové archivace dat v MetaCentru.

Co zálohujeme

K dosažení rozumné úrovně zabezpečení dat je nutné zajištění pravidelných záloh všech datových oblastí, kde jsou uložena data trvalé hodnoty. Data, která lze snadno znovu vytvořit, zálohy nutně nepotřebují. Proto jsou v MetaCentru zálohována tato data:

  • aplikační software instalovaný správci – Svazky AFS (/afs)
  • domovské adresáře uživatelů, v AFS a na hlavních uzlech clusterů – Svazky NFSv4 (/storage) a NFSv3 (/home)
  • systémová data a logy serverů služeb a hlavních uzlů clusterů
  • další oblasti podle odůvodněných individuálních požadavků uživatelů nebo jejich skupin (společné projektové adresáře apod.).

Co nezálohujeme

Zpravidla nejsou zálohovány běžné uzly clusterů – z uživatelského pohledu se jedná o adresáře pro dočasná data výpočtu, což jsou /scratch a /scratch.shared.

Jak často zálohujeme

S ohledem na aktuální technické možnosti (zatížení zálohovacích zařízení a zálohovaných strojů) je prováděna automatická záloha zpravidla třikrát týdně v nočních hodinách. Zazálohovaná data jsou udržována po maximální dobu, kterou dovoluje kapacita zálohovacích zařízení, nejméně tři měsíce.

Odolnost proti živelním katastrofám je zajištěna zdvojením páskových knihoven, do kterých jsou ukládána data záloh replikovaně, pokud tomu nebrání technická porucha nebo jiné aktuální okolnosti. Média nejsou dále přesunována mimo zásobníky páskových knihoven.

Plná záloha na pásky se provádí jednou měsíčně, ostatní zálohy jsou diferenční nebo inkrementální. Protože výběr souborů pro diferenční a inkrementální zálohy probíhá na základě časových značek, není zaručeno, že se během těchto záloh uloží soubory, kterým byly časové značky uměle nastaveny zpět oproti reálnému času (např. při rozbalování archivních souborů se zachováním časových značek).

Diskové pole centra CERIT-SC (/storage/brno3-cerit/home...) není (narozdíl od ostatních diskových polí) zálohováno na pásky, ale jsou pořizovány tzv. snapshoty. Snapshot je standardní termín pro schopnost zaznamenat stav paměťového zařízení k danému okamžiku, určená pro rychlou obnovu dat. Originální data jsou i nadále k dispozici aplikaci bez přerušení provozu, pouze s minimálním pozastavením datového toku. Díky snapshotům je možné rychle obnovit například omylem smazaná data bez nutnosti použití obnovy pomocí zálohovacího software. Snapshoty uchováváme cca 14 dní.

Archivace dat svépomocí

Uživatelé mohou sami přenést svá data, která již nepotřebují pro své výpočty na hiearchické úložiště CESNETu a CERIT-SC (HSM). Aktuálně jsou připojená tato HSM: /storage/jihlava2-archive/home/ and /storage/plzen2-archive/home/.

Návod pro přesun archivních dat

Uživatelé z virtuální organizace MetaCentrum mají standardně k dispozici diskový prostor na HSM s kvótou 5 TB. Data jsou držena nejméně ve dvou kopiích a starší data jsou dle potřeby automaticky přesouvána na pásky nebo MAID. Uživatelská kvóta může být na požádání navýšena.

Úložiště HSM se hodí zejména pro odkládání archivních dat, se kterými se již aktivně nepracuje. Nepoužívejte jej pro živá data nebo pro data, nad kterými se bezprostředně provádějí výpočty. Úložiště je hierarchické, to znamená, že systém automaticky přesouvá déle nepoužívaná data na pomalejší média, v tomto případě magnetické pásky a vypínatelné disky (MAID). Data jsou přitom stále pro uživatele viditelná v souborovém systému, jen je třeba počítat s tím, že přístup k dlouho nepoužitým datům může být pomalejší.

Pro HSM v Jihlavě platí (analogicky i pro Plzeň):

  • Domovský adresář /storage/jihlava2-archive/home/<login>/ slouží pro konfigurační soubory pro přístup k úložišti, má maličkou kvótu, nedokládejte do něj užitečná data. K ukládání dat slouží prostor odkazovaný symbolickým linkem v domovském adresáři, tj. /storage/jihlava2-archive/home/<login>/VO_metacentrum-tape_tape/. Nastavená migrační politika zajišťuje, že data jsou vždy uložena redundantně.
  • Jsou připojeny všechny svazky, které na úložišti v Jihlavě (Plzni) existují, a pomocné adresáře. Pokud máte uložena data v rámci jiné virtuální organizace, jsou také na strojích MetaCentra dostupná.
Prosíme zvažte přesun svých archivních dat, která nepotřebujete bezprostředně    
k výpočtům (ze svazků /storage/<lokalita>/home/ na některé z připojených HSM           
(/storage/plzen2-archive/ nebo /storage/jihlava2-archive/).                           
Na brněnských svazcích dochází místo. Navíc získáte výhodu zálohování ve dvou kopiích.

Seznam aktuálně dostupných datových úložišť: https://wiki.metacentrum.cz/wiki/NFS4_servery Aktuální využití: http://metavo.metacentrum.cz/pbsmon2/nodes/physical

Dokumentaci k adresářové struktuře HSM úložiště najdete na https://du.cesnet.cz/wiki/doku.php/cs/navody/home-migrace-plzen/start Kompletní dokumentaci úložiště najdete na https://du.cesnet.cz/wiki/doku.php/cs/navody/start