V tomto článku vysvětlíme nezbytné kroky k instalaci a konfiguraci Hadoop na Ubuntu 20.04 LTS. Než budete pokračovat v tomto tutoriálu, ujistěte se, že jste přihlášeni jako uživatel s sudo
privilegia. Všechny příkazy v tomto tutoriálu by měly být spouštěny jako uživatel bez oprávnění root.
Softwarová knihovna Apache Hadoop je framework, který umožňuje rozptýlené zpracování velkých datových sad napříč klastremi počítačů pomocí jednoduchých vývojových modelů. Je navržen tak, aby postoupil na vyšší úroveň z jednotlivých serverů na tisíce strojů, z nichž každý nabízí místní výpočet a úložiště. Spíše než se spoléhat na hardware, aby poskytoval vysokou dostupnost, je samotná kolekce navržena tak, aby detekovala a řešila chyby na aplikačním povlaku, takže poskytuje vysoce dostupnou službu na vrcholu skupiny počítačových systémů, z nichž každý může být náchylný k selhání.
Nainstalujte Hadoop na Ubuntu 20.04
Krok 1. Nejprve, než začnete instalovat jakýkoli balíček na váš server Ubuntu, vždy doporučujeme zajistit, aby byly všechny systémové balíčky aktualizovány.
sudo apt update sudo apt upgrade
Krok 2. Nainstalujte Javu.
OpenJDK můžete nainstalovat z výchozích repozitářů apt:
sudo apt install default-jdk default-jre
Po úspěšné instalaci Javy na Ubuntu 20.04 potvrďte verzi pomocí příkazového řádku java:
java -version
Krok 3. Vytvořte uživatele Hadoop.
Spuštěním následujícího příkazu vytvořte nového uživatele s názvem Hadoop:
sudo adduser hadoop sudo usermod -aG sudo hadoop sudo usermod -aG sudo hadoop
Poté spuštěním následujícího příkazu vygenerujte páry veřejného a soukromého klíče:
ssh-keygen -t rsa
Potom připojte vygenerované veřejné klíče z id_rsa.pub
do authorized_keys
a nastavte oprávnění:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 640 ~/.ssh/authorized_keys
Ověřte, že umíte ssh pomocí přidaného klíče:
ssh localhost
Krok 4. Nainstalujte Hadoop do systému Ubuntu.
Přejděte na oficiální stránku projektu Apache Hadoop a vyberte verzi Hadoop, kterou chcete implementovat:
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz tar -xvzf hadoop-3.3.2.tar.gz mv hadoop-3.3.2 hadoop
Dále budete muset nakonfigurovat proměnné prostředí Hadoop a Java v systému Ubuntu:
nano ~/.bashrc
Přidejte následující řádky:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/ export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Po dokončení aktivujte proměnné prostředí:
source ~/.bashrc
Dále otevřete soubor proměnných prostředí Hadoop:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
Krok 5. Nakonfigurujte Hadoop.
Nyní vytvořte namenode
a datanode
adresáře v domovském adresáři Hadoop:
mkdir -p ~/hadoopdata/hdfs/namenode mkdir -p ~/hadoopdata/hdfs/datanode
Dále upravte core-site.xml
soubor a aktualizujte jej pomocí názvu hostitele systému:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
Změňte následující řádek:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop.tecadmin.com:9000</value> </property></configuration>
Potom upravte hdfs-site.xml
soubor:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Změňte následující řádek:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property></configuration>
Dále upravte mapred-site.xml
soubor:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Proveďte následující změny:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>
Jakmile upravte yarn-site.xml
soubor:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Proveďte následující změny souboru:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>
Krok 6. Spusťte Hadoop Cluster.
Nyní spusťte následující příkaz pro formátování Hadoop Namenode:
hdfs namenode -format start-dfs.sh
Potom spusťte službu YARN pomocí následujících příkazů:
start-yarn.sh
Zadáním tohoto jednoduchého příkazu zkontrolujte, zda jsou všichni démoni aktivní a běží jako procesy Java:
jps
Krok 7. Nakonfigurujte bránu firewall.
Spuštěním následujícího příkazu povolte připojení Hadoop přes bránu firewall:
firewall-cmd --permanent --add-port=9870/tcp firewall-cmd --permanent --add-port=8088/tcp firewall-cmd --reload
Krok 8. Přístup k Hadoop.
Použijte preferovaný prohlížeč a přejděte na adresu URL nebo IP místního hostitele. Výchozí číslo portu 9870 vám poskytuje přístup k uživatelskému rozhraní Hadoop NameNode:
http://your-ip-address:9870
To je vše, co musíte udělat, abyste si nainstalovali Hadoop na Ubuntu 20.04 LTS Focal Fossa. Doufám, že vám tento rychlý tip pomůže. Další informace o Apache Hadoop naleznete v jejich oficiální znalostní bázi. Pokud máte dotazy nebo návrhy, neváhejte zanechat komentář níže.