V tomto tutoriálu vám ukážeme, jak nainstalovat Apache Hadoop na Ubuntu 16.04 LTS. Pro ty z vás, kteří nevěděli, Apache Hadoop je open-source softwarový framework napsaný v Javě. pro proces distribuovaného úložiště a distribuce zpracovává velmi velké soubory dat tím, že je distribuuje mezi počítačové clustery. Spíše než se spoléhat na hardware při poskytování vysoké dostupnosti, je samotná knihovna navržena tak, aby detekovala a řešila selhání na aplikační vrstvě, takže poskytuje vysoce dostupná služba na shluku počítačů, z nichž každý může být náchylný k selhání.
Tento článek předpokládá, že máte alespoň základní znalosti Linuxu, víte, jak používat shell, a co je nejdůležitější, hostujete svůj web na vlastním VPS. Instalace je poměrně jednoduchá a předpokládá, že běží v účtu root, pokud ne, možná budete muset přidat 'sudo
‘ k příkazům pro získání oprávnění root. Ukážu vám krok za krokem instalaci Apache Hadoop na server Ubuntu 16.04 Xenial Xerus.
Předpoklady
- Server s jedním z následujících operačních systémů:Ubuntu 16.04 (Xenial Xerus).
- Abyste předešli případným problémům, doporučujeme použít novou instalaci operačního systému.
- Přístup SSH k serveru (nebo stačí otevřít Terminál, pokud jste na počítači).
non-root sudo user
nebo přístup kroot user
. Doporučujeme jednat jakonon-root sudo user
, protože však můžete poškodit svůj systém, pokud nebudete při jednání jako root opatrní.
Nainstalujte Apache Hadoop na Ubuntu 16.04 LTS
Krok 1. Nejprve se ujistěte, že všechny vaše systémové balíčky jsou aktuální spuštěním následujícího apt-get
příkazy v terminálu.
sudo apt-get update sudo apt-get upgrade
Krok 2. Instalace Java (OpenJDK).
Vzhledem k tomu, že Hadoop je založen na Javě, ujistěte se, že máte v systému nainstalovanou Java JDK. Pokud v systému Java nainstalovanou nemáte, použijte následující odkaz jej nejprve nainstalujte.
- Nainstalujte Java JDK 8 na Ubuntu 16.04
[email protected] ~# java -version java version "1.8.0_74" Java(TM) SE Runtime Environment (build 1.8.0_74-b02) Java HotSpot(TM) 64-Bit Server VM (build 25.74-b02, mixed mode)
Krok 3. Instalace Apache Hadoop.
Abyste se vyhnuli bezpečnostním problémům, doporučujeme nastavit novou uživatelskou skupinu a uživatelský účet Hadoop, aby se zabývaly všemi aktivitami souvisejícími s Hadoop, pomocí následujícího příkazu:
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
Po vytvoření uživatele je také nutné nastavit klíčový ssh pro jeho vlastní účet. K tomu použijte následující příkazy:
su - hadoopuser ssh-keygen -t rsa -P "" cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys chmod 600 authorized_keys ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1 ssh slave-1
Stáhněte si nejnovější stabilní verzi Apache Hadoop, v době psaní tohoto článku je to verze 2.8.1:
wget http://www-us.apache.org/dist/hadoop/common/hadoop-2.8.1/hadoop-2.8.1.tar.gz tar xzf hadoop-2.8.1.tar.gz mv hadoop-2.8.1 hadoop
Krok 4. Nakonfigurujte Apache Hadoop.
Nastavte proměnné prostředí Hadoop. Upravit ~/.bashrc
soubor a na konec souboru připojte následující hodnoty:
export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Použití proměnných prostředí na aktuálně běžící relaci:
source ~/.bashrc
Nyní upravte $HADOOP_HOME/etc/hadoop/hadoop-env.sh
soubor a nastavte proměnnou prostředí JAVA_HOME:
export JAVA_HOME=/usr/jdk1.8.0_74/
Hadoop má mnoho konfiguračních souborů, které je třeba nakonfigurovat podle požadavků vaší infrastruktury Hadoop. Začněme s konfigurací základním nastavením clusteru Hadoop s jedním uzlem:
cd $HADOOP_HOME/etc/hadoop
Upravit core-site.xml
:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
Upravit hdfs-site.xml
:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>
Upravit mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Upravit soubor yarn-site.xml:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Nyní naformátujte namenode pomocí následujícího příkazu, nezapomeňte zkontrolovat adresář úložiště:
hdfs namenode -format
Spusťte všechny služby Hadoop pomocí následujícího příkazu:
cd $HADOOP_HOME/sbin/ start-dfs.sh start-yarn.sh
Měli byste sledovat výstup, abyste se ujistili, že se pokouší spustit datanode na slave uzlech jeden po druhém. Chcete-li zkontrolovat, zda jsou všechny služby spuštěny dobře, použijte 'jps
‘ příkaz:
jps
Krok 5. Přístup k Apache Hadoop.
Apache Hadoop bude ve výchozím nastavení k dispozici na portu HTTP 8088 a portu 50070. Otevřete svůj oblíbený prohlížeč a přejděte na http://your-domain.com:50070
nebo http://server-ip:50070
. Pokud používáte firewall, otevřete porty 8088 a 50070, abyste umožnili přístup k ovládacímu panelu.
Blahopřejeme! Úspěšně jste nainstalovali Apache Hadoop. Děkujeme, že jste použili tento návod k instalaci Apache Hadoop na systém Ubuntu 16.04. Pro další pomoc nebo užitečné informace vám doporučujeme navštívit oficiální web Apache Hadoop.