GNU/Linux >> Znalost Linux >  >> Ubuntu

Jak nainstalovat Hadoop na Ubuntu 20.04

V tomto článku vysvětlíme nezbytné kroky k instalaci a konfiguraci Hadoop na Ubuntu 20.04 LTS. Než budete pokračovat v tomto tutoriálu, ujistěte se, že jste přihlášeni jako uživatel s sudo privilegia. Všechny příkazy v tomto tutoriálu by měly být spouštěny jako uživatel bez oprávnění root.

Softwarová knihovna Apache Hadoop je framework, který umožňuje rozptýlené zpracování velkých datových sad napříč klastremi počítačů pomocí jednoduchých vývojových modelů. Je navržen tak, aby postoupil na vyšší úroveň z jednotlivých serverů na tisíce strojů, z nichž každý nabízí místní výpočet a úložiště. Spíše než se spoléhat na hardware, aby poskytoval vysokou dostupnost, je samotná kolekce navržena tak, aby detekovala a řešila chyby na aplikačním povlaku, takže poskytuje vysoce dostupnou službu na vrcholu skupiny počítačových systémů, z nichž každý může být náchylný k selhání.

Nainstalujte Hadoop na Ubuntu 20.04

Krok 1. Nejprve, než začnete instalovat jakýkoli balíček na váš server Ubuntu, vždy doporučujeme zajistit, aby byly všechny systémové balíčky aktualizovány.

sudo apt update
sudo apt upgrade

Krok 2. Nainstalujte Javu.

OpenJDK můžete nainstalovat z výchozích repozitářů apt:

sudo apt install default-jdk default-jre

Po úspěšné instalaci Javy na Ubuntu 20.04 potvrďte verzi pomocí příkazového řádku java:

java -version

Krok 3. Vytvořte uživatele Hadoop.

Spuštěním následujícího příkazu vytvořte nového uživatele s názvem Hadoop:

sudo adduser hadoop
sudo usermod -aG sudo hadoop
sudo usermod -aG sudo hadoop

Poté spuštěním následujícího příkazu vygenerujte páry veřejného a soukromého klíče:

ssh-keygen -t rsa

Potom připojte vygenerované veřejné klíče z id_rsa.pub do authorized_keys a nastavte oprávnění:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
chmod 640 ~/.ssh/authorized_keys

Ověřte, že umíte ssh pomocí přidaného klíče:

ssh localhost

Krok 4. Nainstalujte Hadoop do systému Ubuntu.

Přejděte na oficiální stránku projektu Apache Hadoop a vyberte verzi Hadoop, kterou chcete implementovat:

su - hadoop 
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
tar -xvzf hadoop-3.3.2.tar.gz 
mv hadoop-3.3.2 hadoop

Dále budete muset nakonfigurovat proměnné prostředí Hadoop a Java v systému Ubuntu:

nano ~/.bashrc

Přidejte následující řádky:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Po dokončení aktivujte proměnné prostředí:

source ~/.bashrc

Dále otevřete soubor proměnných prostředí Hadoop:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/

Krok 5. Nakonfigurujte Hadoop.

Nyní vytvořte namenode a datanode adresáře v domovském adresáři Hadoop:

mkdir -p ~/hadoopdata/hdfs/namenode 
mkdir -p ~/hadoopdata/hdfs/datanode

Dále upravte core-site.xml soubor a aktualizujte jej pomocí názvu hostitele systému:

nano $HADOOP_HOME/etc/hadoop/core-site.xml

Změňte následující řádek:

<configuration>        <property>                <name>fs.defaultFS</name>                <value>hdfs://hadoop.tecadmin.com:9000</value>        </property></configuration>

Potom upravte hdfs-site.xml soubor:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Změňte následující řádek:

<configuration>        <property>                <name>dfs.replication</name>                <value>1</value>        </property>        <property>                <name>dfs.name.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>        </property>        <property>                <name>dfs.data.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>        </property></configuration>

Dále upravte mapred-site.xml soubor:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Proveďte následující změny:

<configuration>        <property>                <name>mapreduce.framework.name</name>                <value>yarn</value>        </property></configuration>

Jakmile upravte yarn-site.xml soubor:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Proveďte následující změny souboru:

<configuration>        <property>               <name>yarn.nodemanager.aux-services</name>                <value>mapreduce_shuffle</value>        </property></configuration>

Krok 6. Spusťte Hadoop Cluster.

Nyní spusťte následující příkaz pro formátování Hadoop Namenode:

hdfs namenode -format 
start-dfs.sh

Potom spusťte službu YARN pomocí následujících příkazů:

start-yarn.sh

Zadáním tohoto jednoduchého příkazu zkontrolujte, zda jsou všichni démoni aktivní a běží jako procesy Java:

jps

Krok 7. Nakonfigurujte bránu firewall.

Spuštěním následujícího příkazu povolte připojení Hadoop přes bránu firewall:

firewall-cmd --permanent --add-port=9870/tcp 
firewall-cmd --permanent --add-port=8088/tcp 
firewall-cmd --reload

Krok 8. Přístup k Hadoop.

Použijte preferovaný prohlížeč a přejděte na adresu URL nebo IP místního hostitele. Výchozí číslo portu 9870 vám poskytuje přístup k uživatelskému rozhraní Hadoop NameNode:

http://your-ip-address:9870

To je vše, co musíte udělat, abyste si nainstalovali Hadoop na Ubuntu 20.04 LTS Focal Fossa. Doufám, že vám tento rychlý tip pomůže. Další informace o Apache Hadoop naleznete v jejich oficiální znalostní bázi. Pokud máte dotazy nebo návrhy, neváhejte zanechat komentář níže.


Ubuntu
  1. Jak nainstalovat Apache Hadoop na Debian 11

  2. Jak nainstalovat Apache Hadoop na CentOS 8

  3. Jak nainstalovat Apache Hadoop na Ubuntu 14.04

  1. Jak nainstalovat Apache Hadoop na Ubuntu 18.04 LTS

  2. Jak nainstalovat R na Ubuntu 16.04

  3. Jak nainstalovat Go na Ubuntu 18.04

  1. Jak nainstalovat Odoo na Ubuntu

  2. Jak nainstalovat Maven na Ubuntu

  3. Jak nainstalovat Wine na Ubuntu