Hadoop Klient

From MetaCentrum
Jump to: navigation, search

(English version)

Úvod

Toto je specifická dokumentace, která popisuje, jak nastavit lokálního Hadoop klienta.

Primární použití Hadoop clusteru je přes frontend hador.ics.muni.cz, viz Hadoop.

Ruční instalace

Konfigurce lze získat z frontendu Hadoopu v MetaCentru: hador.ics.muni.cz. Jsou generovány automaticky nástrojem puppet, a tak se mohou čas od času měnit.

Kerberos klient

Je potřeba správně nakonfigurovaný kerberos klient pro realm META a ICS.MUNI.CZ, tj.:

  1. /etc/krb5.conf (např. z hador.ics.muni.cz, viz také tato stránka)
  2. správný lokální čas (doporučeno použít ntp)

Repozitář

Doporučujeme instalovat totožné verze SW (tj. použít distribuci Cloudera a lokální mirror s odzkoušenými verzemi používané pro MetaCentrum). Je možno použít i originální repozitář Coudery (http://archive.cloudera.com/cdh5/).

Debian 7/wheezy:

echo 'deb [arch=amd64] http://scientific.zcu.cz/repos/hadoop/cdh5/debian/wheezy/amd64/cdh wheezy-cdh5 contrib' > /etc/apt/sources.list.d/cloudera.list
apt-key adv --fetch-key http://scientific.zcu.cz/repos/hadoop/archive.key
apt-get update

Debian 8/jessie:

echo 'deb [arch=amd64] http://scientific.zcu.cz/repos/hadoop/cdh5/debian/jessie/amd64/cdh jessie-cdh5 contrib' > /etc/apt/sources.list.d/cloudera.list
apt-key adv --fetch-key http://scientific.zcu.cz/repos/hadoop/archive.key
apt-get update

Java

Podporované verze Javy jsou: OpenJDK 7, OpenJDK 8, Oracle 7, Oracle 8

Příklad instalace Javy pro Debian 7/weeezy a Debian 8/jessie:

apt-get install openjdk-7-jre-headless

Hadoop

  • instalace:
apt-get install hadoop-client
  • zkopírovat konfigurace z frontendu:
/etc/hadoop/conf/core-site.xml
/etc/hadoop/conf/hdfs-site.xml
/etc/hadoop/conf/yarn-site.xml
/etc/hadoop/conf/mapred-site.xml

Hive

  • instalace:
apt-get install hive
  • zkopírovat konfigurace z frontendu:
/etc/hive/conf/hive-site.xml

HBase

  • installace:
apt-get install hbase
mkdir -p /var/lib/hbase/local/jars
chown -R hbase:hbase /var/lib/hbase/local
  • zkopírovat konfigurace z frontendu:
/etc/hbase/conf/hbase-site.xml

Spark

Potřeba nastavit také #Hadoop, protože se v MetaCentru používá v režimu s YARNem.

  • instalace:
apt-get install spark-python
  • zkopírovat konfigurace z frontendu:
/etc/spark/conf/hive-site.xml
/etc/spark/conf/spark-defaults.conf
/etc/profile.d/hadoop-spark.csh
/etc/profile.d/hadoop-spark.sh
/etc/profile.d/hadoop-spark2.csh
/etc/profile.d/hadoop-spark2.sh

Místo souborů v /etc/profile.d/ je možno nastavit proměnné v ~/.bashrc:

export HADOOP_CONF_DIR=/etc/hadoop/conf
export YARN_CONF_DIR=/etc/hadoop/conf
export LD_LIBRARY_PATH="/usr/lib/hadoop/lib/native:$LD_LIBRARY_PATH"

Pig

  • instalace:
apt-get install pig
#volitelně:
apt-get install pig-udf-datafu
  • zkopírovat konfigurace z frontendu:
/etc/profile.d/hadoop-pig.sh
/etc/profile.d/hadoop-pig.csh

Místo souborů v /etc/profile.d/ je možno nastavit proměnnou v ~/.bashrc:

export HADOOP_MAPRED_HOME=/usr/lib/hadoop-mapreduce

Docker

Předkonfigurované prostředí pro použití clusteru hador v MetaCentru (viz docker hub).

# update image
docker pull valtri/docker-hadoop-frontend-debian

# puštění s login shellem (kvuli proměnným prostředí)
docker run -it --name hadoop_frontend valtri/docker-hadoop-frontend-debian /bin/bash -l