Data v Hadoopu

From MetaCentrum
Jump to: navigation, search

Úvod

Toto je detailní dokumentace k Hadoop clusteru v MetaCentru. Základní informace o Hadoopu a přístupu k Hadoop clusteru viz Hadoop. Úvodní stránka s odkazy na dokumentaci k Hadoopu viz Kategorie:Hadoop.

Detaily

Subsystém Komponenta Hostname Popis
HDFS 2⨯ namenode hador-c1.ics.muni.cz, hador-c2.ics.muni.cz Hadoop file system metadata
HDFS 24⨯ datanode hador1.ics.muni.cz ... hador24.ics.muni.cz Hadoop file system data nodes
HDFS 3⨯ journalnode hador-c1.ics.muni.cz, hador-c2.ics.muni.cz, hador.ics.muni.cz Hadoop file system HA journal nodes
YARN 2⨯ resourcemanager hador-c1.ics.muni.cz, hador-c2.ics.muni.cz YARN resource control
YARN 24⨯ nodemanager hador1.ics.muni.cz ... hador24.ics.muni.cz YARN computing nodes
MAPRED 1⨯ historyserver hador-c2.ics.muni.cz Map/Reduce jobs history server
ZOOKEEPER 3⨯ zookeeper hador-c1.ics.muni.cz, hador-c2.ics.muni.cz, hador.ics.muni.cz Zookeeper servers (HA, sync, ...)
1⨯ frontend hador.ics.muni.cz Hadoop client

Úložiště dat

1) řídicí servery a frontend

  • OS na RAID 1 (mirror) [2 x 1 TB]
  • data na RAID 6, 5.5 GB [8 x 1 TB]
    • hador-c1, hador-c2 (HDFS): metadata HDFS clusteru
    • hador (frontend): scratch pro uživatele

Ukládání kopie metadat na vzdálené NFS není použito (==> nižší ochrana dat, ale vyšší spolehlivost clusteru).

2) datové uzly

  • OS na RAID 1 (mirror) [2 x 1 TB]
  • data na fyzických discích přímo [12 x 4 TB]
  • scratch z částí datových disků (stripe raid) [12 x 70 GB]

Redundance řešena na úrovni HDFS, replikační faktor nastaven na 4.

Přístup k datům

Cluster je propojen přes rychlejší síť infiniband (s IP adresami z lokálního rozsahu) a zárověň je přístupný i zvnějšku přes klasickou síť. Propojení infinibandem je také mezi frontendem hador.ics.muni.cz a zbytkem clusteru. Zároveň je ve stejném clusteru připojen i storage brno6.

Pro rychlejší přesuny dat mezi HDFS a lokálním diskem lze využít:

1) lokální adresář /scratch na hador.ics.muni.cz:

hdfs dfs -put /scratch/USER/books .
hdfs dfs -get books /scratch/USER/books2

2) storage brno6:

hdfs dfs -put /auto/brno6/home/USER/books .
hdfs dfs -get books /auto/brno6/home/USER/books2

HDFS je přístupné také jako připojený adresář, ale přesun dat je velmi pomalý. Vhodné pro jiné operace:

3) HDFS-NFS brána na hador.ics.muni.cz:

find /hdfs/user/`id -un` -type f

Administrátorská dokumentace

instalace: Uživatel:Valtri/Hadoop/Installation

changelog: Uživatel:Valtri/Hadoop/LogBook