GNU/Linux >> Znalost Linux > >> Debian

Jak nainstalovat Hadoop na Debian 11

Apache Hadoop nebo také známý jako Hadoop je open-source framework založený na Javě, který umožňuje distribuované zpracování velkých souborů dat napříč počítači. Používá se k ukládání a zpracování velkých datových sad. Umožňuje shlukování více počítačů pro rychlejší ukládání a zpracování dat namísto použití jednoho velkého počítače. Hadoop se skládá ze čtyř hlavních modulů:

– HDFS (Hadoop Distributed File System)
– YARN (ještě další vyjednavač zdrojů)
– MapReduce
– Hadoop Common

V tomto tutoriálu vysvětlíme, jak nainstalovat Hadoop na Debian 11.

Předpoklady

Debian 11
SSH root přístup nebo normální systémový uživatel s právy sudo

Krok 1. Přihlaste se k serveru

Nejprve se přihlaste ke svému serveru Debian 11 přes SSH jako uživatel root:

ssh root@IP_Address -p Port_number

V případě potřeby nahraďte „root“ uživatelem, který má oprávnění sudo. Navíc nahraďte „IP_Address“ a „Port_Number“ příslušnou IP adresou vašeho serveru a číslem portu SSH.

Zda máte na svém serveru nainstalovanou správnou verzi Debianu, můžete zkontrolovat pomocí následujícího příkazu:

$ lsb_release -a

Měli byste získat tento výstup:

Nejsou dostupné žádné moduly LSB. ID distributora:DebianDescription:Debian GNU/Linux 11 (bullseye)Vydání:11Kódové jméno:bullseye

Před spuštěním se musíte ujistit, že všechny balíčky Ubuntu OS nainstalované na serveru jsou aktuální.
To můžete provést spuštěním následujících příkazů:

$ sudo apt update -y$ sudo apt upgrade -y

Krok 2. Vytvořte systémového uživatele a vygenerujte klíč SSH

Není dobrý nápad spouštět Hadoop jako root, takže z bezpečnostních důvodů vytvoříme nového uživatele systému:

$ sudo useradd -r hadoop -m -d /opt/hadoop --shell /bin/bash

Byl vytvořen uživatel „hadoop“, přihlaste se jako uživatel.

$ su - hadoop

Hadoop vyžaduje přístup ssh ke správě svých uzlů, ať už jde o vzdálené nebo místní uzly. Pro přístup k uzlům bez hesla můžeme vygenerovat SSH klíč a zkopírovat veřejný klíč do souboru ~/.ssh/authorized_keys.

$ ssh-keygen -t rsa

Získáte výstup, jako je tento.

hadoop@debian11:~$ ssh-keygen -t rsaGenerování páru veřejného/soukromého rsa klíčů.Zadejte soubor, do kterého se má klíč uložit (/opt/hadoop/.ssh/id_rsa):Vytvořený adresář '/opt/hadoop/ .ssh'.Zadejte přístupové heslo (prázdné pro žádné heslo):Zadejte stejné přístupové heslo znovu:Vaše identifikace byla uložena do /opt/hadoop/.ssh/id_rsaVáš veřejný klíč byl uložen do /opt/hadoop/.ssh/id_rsa.pubThe otisk klíče je:SHA256:QYHlb6Is9n05OtnR+6i71t4MZeN9gVqGVCoa28aiUXg [email protected]áhodný obrázek klíče je:+---[RSA 3072]----+| o+. . || oo o || . Eo. o || o *oo. . || . +S+oo++. || .o.oo =+ o.|| o.o o =... o|| . o .o * o=.|| . o=+*o.+ |+----[SHA256]-----+

Dále přidáme veřejný klíč hadoop do souboru autorizovaného klíče, abychom uživateli „hadoop“ umožnili přihlásit se do systému bez hesla a používat pouze klíč SSH.

$ cat ~/.ssh/id_rsa.pub> ~/.ssh/authorized_keys

Přihlaste se do systému přes SSH nyní.

$ ssh localhost

Nyní byste měli být schopni se přihlásit k SSH bez hesla.
Ukončeme uživatelské ‚hadoop‘ a poté pokračujte dalším krokem.

$ exit

Krok 3. Nainstalujte Java

Hadoop je napsán v Javě, takže vyžadujeme Javu v našem systému, abychom mohli Hadoop spustit. Spusťte tento příkaz níže a nainstalujte výchozí JDK pro Javu z úložiště.

$ sudo apt install default-jdk default-jre -y

Java by měla být nyní nainstalována, můžete to zkontrolovat a ověřit vyvoláním tohoto příkazu:

$ sudo java -version

Krok 4. Stáhněte a nainstalujte Hadoop

V době psaní tohoto článku je nejnovější stabilní verze Hadoop verze 3.3.2. Můžete přejít na jejich stránku ke stažení na https://hadoop.apache.org/releases.html a zkontrolovat novější verzi, pokud existuje.

Přihlasme se jako uživatel „hadoop“, abychom jej stáhli a rozbalili, takže nemusíme měnit oprávnění k souboru a adresáři.

$ su - hadoop$ wget https://dlcdn.apache.org/hadoop/common/hadoop-3.2.3/hadoop-3.2.3.tar.gz -O hadoop-3.2.3.tar.gz$ tar -xzvf hadoop-3.2.3.tar.gz -C /opt/hadoop --strip-components=1

Než budete pokračovat k dalším krokům, ujistěte se, že JAVA_HOME ukazuje na správný adresář, můžete to zkontrolovat výpisem /usr/lib/jvm

$ ls /var/lib/jvm

Nyní upravíme /opt/hadoop/.bashrc

$ nano /opt/hadoop/.bashrc

Vložte do souboru následující řádky.

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64export HADOOP_HOME=/opt/hadoopexport PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbinexport_COMRED_MONHOME_HOME/sbinexport_COMRED_MONHOOPHA=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_OPTS="-Djava.library.library.path=$

Uložte soubor a ukončete, poté spusťte níže uvedený příkaz pro aktivaci nově přidaných proměnných prostředí.

zdroj $ ~/.bashrc

Krok 5. Nakonfigurujte Hadoop

Hadoop lze nakonfigurovat tak, aby běžel v jednom uzlu nebo v clusteru s více uzly. V tomto tutoriálu vám ukážeme, jak nastavit Hadoop single node cluster nebo pseudo-distribuovaný režim. V tomto kroku musíme upravit některé soubory, nyní nejprve upravíme soubor prostředí Hadoop.

$ nano /opt/hadoop/etc/hadoop/hadoop-env.sh

Přidejte do souboru následující řádek.

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

Upravte soubor core-site.xml.

$ nano /opt/hadoop/etc/hadoop/core-site.xml

Přidejte tyto řádky do konfigurační značky.

fs.default.namehdfs://localhost:9000

Upravte soubor hdfs-site.xml

$ nano /opt/hadoop/etc/hadoop/hdfs-site.xml

Přidejte tyto řádky do konfigurační značky.

dfs.replication1dfs.namenode.name.dirsoubor:/opt/hadoop/hadoop_tmp/hdfs/namenodedfs.datanode.data.dirfile:/opt/hadoop/hadoop_tmp/hdfs/datanode

Uložte soubor stisknutím CTRL + O a ukončete pomocí CTRL + X

Upravte soubor yarn-site.xml

$ nano /opt/hadoop/etc/hadoop/yarn-site.xml

Přidejte tyto řádky do konfigurační značky.

yarn.nodemanager.aux-servicesmapreduce_shuffleyarn.nodemanager.aux-services.mapreduce.shuffle. classorg.apache.hadoop.mapred.ShuffleHandler

Posledním souborem, který je třeba upravit, je mapred-site.xml.

$ nano /opt/hadoop/etc/hadoop/mapred-site.xml

Přidejte tyto řádky do konfigurační značky.

mapreduce.framework.namepříze

Nezapomeňte soubor uložit a poté opustit nano editor.

Výše uvedené soubory byly upraveny, potřebujeme vytvořit nějaké adresáře, spusťte tento příkaz:

$ mkdir -p /opt/hadoop/hadoop_tmp/hdfs/{namenode,datanode}

Před prvním spuštěním služeb Hadoop musíme naformátovat jmenný uzel.

$ hdfs namenode -format

Start namenode a datanode

$ start-dfs.sh

Pokud se zobrazí tato varovná zpráva:

Nelze načíst nativní knihovnu hadoop pro vaši platformu... pomocí vestavěných tříd Java, kde je to možné

Znamená to, že váš operační systém serveru je 64bitový, ale nativní knihovna Hadoop je 32bitová. To se očekává a varování můžete ignorovat. Pokud vám to nevyhovuje, můžete si stáhnout zdrojový soubor Hadoop a poté jej zkompilovat, abyste získali 64bitovou sdílenou knihovnu.

Nyní spustíme správce zdrojů a uzlů YARN.

$ start-yarn.sh

Poslední, spusťte tento příkaz:

$ jps

Získáte výstup, jako je tento:

106129 SecondaryNameNode108050 Jps105877 NameNode106375 ResourceManager105960 DataNode106458 NodeManager

Nyní. můžete přejít na http://YOUR_SERVER_IP_ADDRESS:9870/ a podívat se na jmenný uzel, datový uzel atd.

Chcete-li zkontrolovat webový portál YARN, můžete přejít na adresu http://YOUR_SERVER_IP_ADDRESS:8088/

A je to. Úspěšně jste nainstalovali a nakonfigurovali Hadoop na Debian 11 VPS.

Samozřejmě nemusíte instalovat Hadoop na Debian 11, pokud u nás máte spravovaný server Debian. Můžete jednoduše požádat náš tým podpory, aby vám nainstaloval Hadoop na Debian 11. Jsou k dispozici 24 hodin denně, 7 dní v týdnu a budou vám schopni pomoci s instalací.

PS. Pokud se vám líbilo čtení tohoto blogového příspěvku o tom, jak nainstalovat Hadoop na Debian 11, můžete jej sdílet na sociálních sítích pomocí níže uvedených zkratek nebo jednoduše zanechat komentář v sekci komentářů. Děkuji.

Jak opravit příkaz Sudo, který nebyl nalezen v Debianu 10 Jak nainstalovat Fathom Analytics na Debian 11

Debian