GNU/Linux >> Znalost Linux > >> Debian

Jak nainstalovat Apache Hadoop na Debian 9 Stretch

V tomto tutoriálu vám ukážeme, jak nainstalovat Apache Hadoop na Debian 9 Stretch. Pro ty z vás, kteří nevěděli, Apache Hadoop je open-source framework používaný pro distribuované úložiště stejně jako distribuované zpracování velkých dat na klastrech počítačů, které běží na komoditním hardwaru. Hadoop ukládá data v Hadoop Distributed File System (HDFS) a zpracování těchto dat se provádí pomocí MapReduce. YARN poskytuje API pro vyžádání a alokaci zdrojů v clusteru Hadoop.

Tento článek předpokládá, že máte alespoň základní znalosti Linuxu, víte, jak používat shell, a co je nejdůležitější, hostujete svůj web na vlastním VPS. Instalace je poměrně jednoduchá a předpokládá, že běží v účtu root, pokud ne, možná budete muset přidat 'sudo ‘ k příkazům pro získání oprávnění root. Ukážu vám krok za krokem instalaci Apache Hadoop na server Debian 9 (Stretch).

Předpoklady

Server s jedním z následujících operačních systémů:Debian 9 (Stretch).
Abyste předešli případným problémům, doporučujeme použít novou instalaci operačního systému.
Přístup SSH k serveru (nebo stačí otevřít Terminál, pokud jste na počítači).
non-root sudo user nebo přístup k root user . Doporučujeme jednat jako non-root sudo user , protože však můžete poškodit svůj systém, pokud nebudete při jednání jako root opatrní.

Nainstalujte Apache Hadoop na Debian 9 Stretch

Krok 1. Než nainstalujeme jakýkoli software, je důležité se ujistit, že váš systém je aktuální, spuštěním následujícího apt-get příkazy v terminálu:

apt-get update
apt-get upgrade

Krok 2. Instalace Java (OpenJDK).

Apache Hadoop vyžaduje Java verze 8 a vyšší. Můžete si tedy vybrat instalaci OpenJDK nebo Oracle JDK:

Nainstalujte Java JDK 8 na Debian:

[email protected] ~# java -version
java version "1.8.0_192"
Java(TM) SE Runtime Environment (build 1.8.0_192-b02)
Java HotSpot(TM) 64-Bit Server VM (build 25.74-b02, mixed mode)

Krok 3. Instalace Apache Hadoop na Debian 9.

Abyste se vyhnuli bezpečnostním problémům, doporučujeme nastavit novou uživatelskou skupinu a uživatelský účet Hadoop, aby se zabývaly všemi aktivitami souvisejícími s Hadoop, pomocí následujících příkazů:

sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser

Po vytvoření uživatele je také nutné nastavit klíčový ssh pro jeho vlastní účet. K tomu použijte následující příkazy:

su - hadoopuser
ssh-keygen -t rsa -P ""
cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys
chmod 600 authorized_keys
ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1
ssh slave-1

Dále si stáhněte nejnovější stabilní verzi Apache Hadoop. V okamžiku psaní tohoto článku je to verze 2.8.1:

wget http://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz
tar xzf hadoop-3.1.1.tar.gz
mv hadoop-3.1.1 hadoop

Krok 4. Nastavení prostředí Apache Hadoop.

Nastavení proměnných prostředí. Upravit ~/.bashrc soubor a na konec souboru připojte následující hodnoty:

export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Použijte proměnné prostředí na aktuálně spuštěnou relaci:

source ~/.bashrc

Nyní upravte $HADOOP_HOME/etc/hadoop/hadoop-env.sh soubor a nastavte proměnnou prostředí JAVA_HOME:

export JAVA_HOME=/usr/jdk1.8.0_192/

Hadoop má mnoho konfiguračních souborů, které je třeba nakonfigurovat podle požadavků vaší infrastruktury Hadoop. Začněme s konfigurací se základním nastavením clusteru s jedním uzlem Hadoop:

cd $HADOOP_HOME/etc/hadoop

Upravte core-site.xml :

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

Upravit hdfs-site.xml :

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

Upravte soubor mapred-site.xml :

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

Upravit yarn-site.xml :

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

Nyní naformátujte namenode pomocí následujícího příkazu, nezapomeňte zkontrolovat adresář úložiště:

hdfs namenode -format

Spusťte všechny služby Hadoop pomocí následujícího příkazu:

cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh

Měli byste sledovat výstup, abyste se ujistili, že se pokouší spustit datanode na podřízených uzlech jeden po druhém. Chcete-li zkontrolovat, zda jsou všechny služby spuštěny dobře, pomocí 'jps ‘ příkaz:

jps

Krok 5. Nastavte bránu firewall pro Apache Hadoop.

Povolit Apache Hadoop přes bránu firewall:

ufw allow 50070/tcp
ufw allow 8088/tcp
ufw reload

Krok 6. Přístup k Apache Hadoop.

Apache Hadoop bude ve výchozím nastavení k dispozici na portu HTTP 8088 a portu 50070. Otevřete svůj oblíbený prohlížeč a přejděte na http://yourdomain.com:50070 nebo http://server-ip:50070 .

Gratulujeme! Úspěšně jste nainstalovali Apache Hadoop. Děkujeme, že jste použili tento návod k instalaci Apache Hadoop v systémech Debian 9 Stretch. Pro další pomoc nebo užitečné informace vám doporučujeme navštívit oficiální web Apache Hadoop .

Jak nainstalovat Docker Compose na Debian 9 Stretch Jak nainstalovat Ansible na Debian 9 Stretch

Debian