V tomto článku vysvětlíme nezbytné kroky k instalaci a konfiguraci Hadoop na Ubuntu 18.04 LTS. Než budete pokračovat v tomto tutoriálu, ujistěte se, že jste přihlášeni jako uživatel s právy sudo. Všechny příkazy v tomto tutoriálu by měly být spouštěny jako uživatel bez oprávnění root.
Softwarová knihovna Apache Hadoop je framework, který umožňuje distribuované zpracování velkých datových sad napříč shluky počítačů pomocí jednoduchých programovacích modelů. Je navržen tak, aby se škáloval z jednotlivých serverů na tisíce strojů, z nichž každý nabízí místní výpočet a úložiště. Spíše než se spoléhat na hardware při poskytování vysoké dostupnosti, je samotná knihovna navržena tak, aby detekovala a řešila selhání na aplikační vrstvě, takže poskytuje vysoce dostupnou službu na vrcholu skupiny počítačů, z nichž každý může být náchylný k selhání.
Nainstalujte Hadoop na Ubuntu
Krok 1. Než začnete instalovat jakýkoli balíček na svůj server Ubuntu, vždy doporučujeme zajistit, aby byly všechny systémové balíčky aktualizovány.
sudo apt update sudo apt upgrade
Krok 2. Nainstalujte Javu.
Musíme do počítače nainstalovat Javu, protože Java je hlavním předpokladem pro spuštění Hadoopu. Java 6 a vyšší verze jsou podporovány pro Hadoop. Pojďme nainstalovat Java 8 pro tuto lekci:
sudo apt install openjdk-8-jdk-headless
Ověřte, že je Java správně nainstalována:
java -version
Krok 3. Instalace Hadoop na Ubuntu 18.04.
Stáhněte si instalační soubory Hadoopu, abychom mohli pracovat i na jeho konfiguraci:
mkdir jd-hadoop && cd jd-hadoop wget http://mirror.cc.columbia.edu/pub/software/apache/hadoop/common/hadoop-3.2.0/hadoop-3.2.0.tar.gz
Jakmile je soubor stažen, spusťte následující příkaz pro rozbalení souboru:
tar xvzf hadoop-3.2.0.tar.gz
Krok 4. Přidání uživatelského účtu Hadoop.
Na našem počítači vytvoříme samostatného uživatele Hadoop, abychom udrželi HDFS oddělené od našeho původního systému souborů. Nejprve můžeme vytvořit skupinu uživatelů na našem počítači:
addgroup hadoop
Nyní můžeme do této skupiny přidat nového uživatele:
useradd -G hadoop hadoopuser
Nakonec poskytneme uživateli jdhadoopuser přístup root. Chcete-li to provést, otevřete soubor /etc/sudoers tímto příkazem:
sudo visudo
Nyní zadejte toto jako poslední řádek v souboru:
hadoopuser ALL=(ALL) ALL
Krok 5. Nastavení jednoho uzlu Hadoop.
Hadoop na jediném uzlu znamená, že Hadoop poběží jako jeden proces Java. Nyní přejmenujte archiv hadoop jako aktuálně přítomný pouze na hadoop:
mv /root/jd-hadoop/hadoop-3.2.0 /root/jd-hadoop/hadoop chown -R hadoopuser:hadoop /root/jd-hadoop/hadoop
Lepším umístěním pro Hadoop bude adresář /usr/local/, takže jej přesuneme tam:
mv hadoop /usr/local/ cd /usr/local/
Nyní upravte soubor .bashrc a přidejte Hadoop a Java do cesty pomocí tohoto příkazu:
nano ~/.bashrc
# Configure Hadoop and Java Home export HADOOP_HOME=/usr/local/hadoop export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$PATH:$HADOOP_HOME/bin
Nyní je čas říct i Hadoopu, kde je přítomna Java. Můžeme to udělat poskytnutím této cesty v souboru hadoop-env.sh:
find hadoop/ -name hadoop-env.sh
Nyní upravte soubor:
# nano hadoop-env.sh export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
Krok 6. Testování instalace Hadoop.
Instalaci Hadoopu můžeme otestovat spuštěním ukázkové aplikace, která je nyní předpřipravena s Hadoopem, příkladem JAR počítadla slov:
hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.2.0.jar wordcount /usr/local/hadoop/README.txt /root/jd-hadoop/Output
Pokud chcete, můžete si obsah tohoto souboru prohlédnout pomocí následujícího příkazu:
cat part-r-00000
To je vše, co potřebujete k instalaci Apache Hadoop na Ubuntu 18.04. Doufám, že vám tento rychlý tip pomůže. Pokud máte dotazy nebo návrhy, neváhejte zanechat komentář níže.