V tomto tutoriálu vám ukážeme, jak nainstalovat Apache Hadoop na Debian 9 Stretch. Pro ty z vás, kteří nevěděli, Apache Hadoop je open-source framework používaný pro distribuované úložiště stejně jako distribuované zpracování velkých dat na klastrech počítačů, které běží na komoditním hardwaru. Hadoop ukládá data v Hadoop Distributed File System (HDFS) a zpracování těchto dat se provádí pomocí MapReduce. YARN poskytuje API pro vyžádání a alokaci zdrojů v clusteru Hadoop.
Tento článek předpokládá, že máte alespoň základní znalosti Linuxu, víte, jak používat shell, a co je nejdůležitější, hostujete svůj web na vlastním VPS. Instalace je poměrně jednoduchá a předpokládá, že běží v účtu root, pokud ne, možná budete muset přidat 'sudo
‘ k příkazům pro získání oprávnění root. Ukážu vám krok za krokem instalaci Apache Hadoop na server Debian 9 (Stretch).
Předpoklady
- Server s jedním z následujících operačních systémů:Debian 9 (Stretch).
- Abyste předešli případným problémům, doporučujeme použít novou instalaci operačního systému.
- Přístup SSH k serveru (nebo stačí otevřít Terminál, pokud jste na počítači).
non-root sudo user
nebo přístup kroot user
. Doporučujeme jednat jakonon-root sudo user
, protože však můžete poškodit svůj systém, pokud nebudete při jednání jako root opatrní.
Nainstalujte Apache Hadoop na Debian 9 Stretch
Krok 1. Než nainstalujeme jakýkoli software, je důležité se ujistit, že váš systém je aktuální, spuštěním následujícího apt-get
příkazy v terminálu:
apt-get update apt-get upgrade
Krok 2. Instalace Java (OpenJDK).
Apache Hadoop vyžaduje Java verze 8 a vyšší. Můžete si tedy vybrat instalaci OpenJDK nebo Oracle JDK:
- Nainstalujte Java JDK 8 na Debian:
[email protected] ~# java -version java version "1.8.0_192" Java(TM) SE Runtime Environment (build 1.8.0_192-b02) Java HotSpot(TM) 64-Bit Server VM (build 25.74-b02, mixed mode)
Krok 3. Instalace Apache Hadoop na Debian 9.
Abyste se vyhnuli bezpečnostním problémům, doporučujeme nastavit novou uživatelskou skupinu a uživatelský účet Hadoop, aby se zabývaly všemi aktivitami souvisejícími s Hadoop, pomocí následujících příkazů:
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
Po vytvoření uživatele je také nutné nastavit klíčový ssh pro jeho vlastní účet. K tomu použijte následující příkazy:
su - hadoopuser ssh-keygen -t rsa -P "" cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys chmod 600 authorized_keys ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1 ssh slave-1
Dále si stáhněte nejnovější stabilní verzi Apache Hadoop. V okamžiku psaní tohoto článku je to verze 2.8.1:
wget http://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz tar xzf hadoop-3.1.1.tar.gz mv hadoop-3.1.1 hadoop
Krok 4. Nastavení prostředí Apache Hadoop.
Nastavení proměnných prostředí. Upravit ~/.bashrc
soubor a na konec souboru připojte následující hodnoty:
export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Použijte proměnné prostředí na aktuálně spuštěnou relaci:
source ~/.bashrc
Nyní upravte $HADOOP_HOME/etc/hadoop/hadoop-env.sh
soubor a nastavte proměnnou prostředí JAVA_HOME:
export JAVA_HOME=/usr/jdk1.8.0_192/
Hadoop má mnoho konfiguračních souborů, které je třeba nakonfigurovat podle požadavků vaší infrastruktury Hadoop. Začněme s konfigurací se základním nastavením clusteru s jedním uzlem Hadoop:
cd $HADOOP_HOME/etc/hadoop
Upravte core-site.xml
:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
Upravit hdfs-site.xml
:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>
Upravte soubor mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Upravit yarn-site.xml
:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Nyní naformátujte namenode pomocí následujícího příkazu, nezapomeňte zkontrolovat adresář úložiště:
hdfs namenode -format
Spusťte všechny služby Hadoop pomocí následujícího příkazu:
cd $HADOOP_HOME/sbin/ start-dfs.sh start-yarn.sh
Měli byste sledovat výstup, abyste se ujistili, že se pokouší spustit datanode na podřízených uzlech jeden po druhém. Chcete-li zkontrolovat, zda jsou všechny služby spuštěny dobře, pomocí 'jps
‘ příkaz:
jps
Krok 5. Nastavte bránu firewall pro Apache Hadoop.
Povolit Apache Hadoop přes bránu firewall:
ufw allow 50070/tcp ufw allow 8088/tcp ufw reload
Krok 6. Přístup k Apache Hadoop.
Apache Hadoop bude ve výchozím nastavení k dispozici na portu HTTP 8088 a portu 50070. Otevřete svůj oblíbený prohlížeč a přejděte na http://yourdomain.com:50070
nebo http://server-ip:50070
.
Gratulujeme! Úspěšně jste nainstalovali Apache Hadoop. Děkujeme, že jste použili tento návod k instalaci Apache Hadoop v systémech Debian 9 Stretch. Pro další pomoc nebo užitečné informace vám doporučujeme navštívit oficiální web Apache Hadoop .