Apache Hadoop nebo také známý jako Hadoop je open-source framework založený na Javě, který umožňuje distribuované zpracování velkých souborů dat napříč počítači. Používá se k ukládání a zpracování velkých datových sad. Umožňuje shlukování více počítačů pro rychlejší ukládání a zpracování dat namísto použití jednoho velkého počítače. Hadoop se skládá ze čtyř hlavních modulů:
– HDFS (Hadoop Distributed File System)
– YARN (ještě další vyjednavač zdrojů)
– MapReduce
– Hadoop Common
V tomto tutoriálu vysvětlíme, jak nainstalovat Hadoop na Debian 11.
Předpoklady
- Debian 11
- SSH root přístup nebo normální systémový uživatel s právy sudo
Krok 1. Přihlaste se k serveru
Nejprve se přihlaste ke svému serveru Debian 11 přes SSH jako uživatel root:
ssh root@IP_Address -p Port_number
V případě potřeby nahraďte „root“ uživatelem, který má oprávnění sudo. Navíc nahraďte „IP_Address“ a „Port_Number“ příslušnou IP adresou vašeho serveru a číslem portu SSH.
Zda máte na svém serveru nainstalovanou správnou verzi Debianu, můžete zkontrolovat pomocí následujícího příkazu:
$ lsb_release -a
Měli byste získat tento výstup:
Nejsou dostupné žádné moduly LSB. ID distributora:DebianDescription:Debian GNU/Linux 11 (bullseye)Vydání:11Kódové jméno:bullseye
Před spuštěním se musíte ujistit, že všechny balíčky Ubuntu OS nainstalované na serveru jsou aktuální.
To můžete provést spuštěním následujících příkazů:
$ sudo apt update -y$ sudo apt upgrade -y
Krok 2. Vytvořte systémového uživatele a vygenerujte klíč SSH
Není dobrý nápad spouštět Hadoop jako root, takže z bezpečnostních důvodů vytvoříme nového uživatele systému:
$ sudo useradd -r hadoop -m -d /opt/hadoop --shell /bin/bash
Byl vytvořen uživatel „hadoop“, přihlaste se jako uživatel.
$ su - hadoop
Hadoop vyžaduje přístup ssh ke správě svých uzlů, ať už jde o vzdálené nebo místní uzly. Pro přístup k uzlům bez hesla můžeme vygenerovat SSH klíč a zkopírovat veřejný klíč do souboru ~/.ssh/authorized_keys.
$ ssh-keygen -t rsa
Získáte výstup, jako je tento.
hadoop@debian11:~$ ssh-keygen -t rsaGenerování páru veřejného/soukromého rsa klíčů.Zadejte soubor, do kterého se má klíč uložit (/opt/hadoop/.ssh/id_rsa):Vytvořený adresář '/opt/hadoop/ .ssh'.Zadejte přístupové heslo (prázdné pro žádné heslo):Zadejte stejné přístupové heslo znovu:Vaše identifikace byla uložena do /opt/hadoop/.ssh/id_rsaVáš veřejný klíč byl uložen do /opt/hadoop/.ssh/id_rsa.pubThe otisk klíče je:SHA256:QYHlb6Is9n05OtnR+6i71t4MZeN9gVqGVCoa28aiUXg [email protected]áhodný obrázek klíče je:+---[RSA 3072]----+| o+. . || oo o || . Eo. o || o *oo. . || . +S+oo++. || .o.oo =+ o.|| o.o o =... o|| . o .o * o=.|| . o=+*o.+ |+----[SHA256]-----+
Dále přidáme veřejný klíč hadoop do souboru autorizovaného klíče, abychom uživateli „hadoop“ umožnili přihlásit se do systému bez hesla a používat pouze klíč SSH.
$ cat ~/.ssh/id_rsa.pub> ~/.ssh/authorized_keys
Přihlaste se do systému přes SSH nyní.
$ ssh localhost
Nyní byste měli být schopni se přihlásit k SSH bez hesla.
Ukončeme uživatelské ‚hadoop‘ a poté pokračujte dalším krokem.
$ exit
Krok 3. Nainstalujte Java
Hadoop je napsán v Javě, takže vyžadujeme Javu v našem systému, abychom mohli Hadoop spustit. Spusťte tento příkaz níže a nainstalujte výchozí JDK pro Javu z úložiště.
$ sudo apt install default-jdk default-jre -y
Java by měla být nyní nainstalována, můžete to zkontrolovat a ověřit vyvoláním tohoto příkazu:
$ sudo java -version
Krok 4. Stáhněte a nainstalujte Hadoop
V době psaní tohoto článku je nejnovější stabilní verze Hadoop verze 3.3.2. Můžete přejít na jejich stránku ke stažení na https://hadoop.apache.org/releases.html a zkontrolovat novější verzi, pokud existuje.
Přihlasme se jako uživatel „hadoop“, abychom jej stáhli a rozbalili, takže nemusíme měnit oprávnění k souboru a adresáři.
$ su - hadoop$ wget https://dlcdn.apache.org/hadoop/common/hadoop-3.2.3/hadoop-3.2.3.tar.gz -O hadoop-3.2.3.tar.gz$ tar -xzvf hadoop-3.2.3.tar.gz -C /opt/hadoop --strip-components=1
Než budete pokračovat k dalším krokům, ujistěte se, že JAVA_HOME ukazuje na správný adresář, můžete to zkontrolovat výpisem /usr/lib/jvm
$ ls /var/lib/jvm
Nyní upravíme /opt/hadoop/.bashrc
$ nano /opt/hadoop/.bashrc
Vložte do souboru následující řádky.
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64export HADOOP_HOME=/opt/hadoopexport PATH=$PATH:$HADOOP_HOME/binexport PATH=$PATH:$HADOOP_HOME/sbinexport_COMRED_MONHOME_HOME/sbinexport_COMRED_MONHOOPHA=$HADOOP_HOMEexport HADOOP_HDFS_HOME=$HADOOP_HOMEexport YARN_HOME=$HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_OPTS="-Djava.library.library.path=$Uložte soubor a ukončete, poté spusťte níže uvedený příkaz pro aktivaci nově přidaných proměnných prostředí.
zdroj $ ~/.bashrcKrok 5. Nakonfigurujte Hadoop
Hadoop lze nakonfigurovat tak, aby běžel v jednom uzlu nebo v clusteru s více uzly. V tomto tutoriálu vám ukážeme, jak nastavit Hadoop single node cluster nebo pseudo-distribuovaný režim. V tomto kroku musíme upravit některé soubory, nyní nejprve upravíme soubor prostředí Hadoop.
$ nano /opt/hadoop/etc/hadoop/hadoop-env.shPřidejte do souboru následující řádek.
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64Upravte soubor core-site.xml.
$ nano /opt/hadoop/etc/hadoop/core-site.xmlPřidejte tyto řádky do konfigurační značky.
fs.default.name hdfs://localhost:9000
Upravte soubor hdfs-site.xml
$ nano /opt/hadoop/etc/hadoop/hdfs-site.xmlPřidejte tyto řádky do konfigurační značky.
dfs.replication 1 dfs.namenode.name.dir soubor:/opt/hadoop/hadoop_tmp/hdfs/namenode dfs.datanode.data.dir file:/opt/hadoop/hadoop_tmp/hdfs/datanode Uložte soubor stisknutím CTRL + O a ukončete pomocí CTRL + X
Upravte soubor yarn-site.xml
$ nano /opt/hadoop/etc/hadoop/yarn-site.xmlPřidejte tyto řádky do konfigurační značky.
yarn.nodemanager.aux-services mapreduce_shuffle yarn.nodemanager.aux-services.mapreduce.shuffle. class org.apache.hadoop.mapred.ShuffleHandler
Posledním souborem, který je třeba upravit, je mapred-site.xml.
$ nano /opt/hadoop/etc/hadoop/mapred-site.xmlPřidejte tyto řádky do konfigurační značky.
mapreduce.framework.name příze Nezapomeňte soubor uložit a poté opustit nano editor.
Výše uvedené soubory byly upraveny, potřebujeme vytvořit nějaké adresáře, spusťte tento příkaz:
$ mkdir -p /opt/hadoop/hadoop_tmp/hdfs/{namenode,datanode}Před prvním spuštěním služeb Hadoop musíme naformátovat jmenný uzel.
$ hdfs namenode -formatStart namenode a datanode
$ start-dfs.shPokud se zobrazí tato varovná zpráva:
Nelze načíst nativní knihovnu hadoop pro vaši platformu... pomocí vestavěných tříd Java, kde je to možnéZnamená to, že váš operační systém serveru je 64bitový, ale nativní knihovna Hadoop je 32bitová. To se očekává a varování můžete ignorovat. Pokud vám to nevyhovuje, můžete si stáhnout zdrojový soubor Hadoop a poté jej zkompilovat, abyste získali 64bitovou sdílenou knihovnu.
Nyní spustíme správce zdrojů a uzlů YARN.
$ start-yarn.shPoslední, spusťte tento příkaz:
$ jpsZískáte výstup, jako je tento:
106129 SecondaryNameNode108050 Jps105877 NameNode106375 ResourceManager105960 DataNode106458 NodeManager
Nyní. můžete přejít na http://YOUR_SERVER_IP_ADDRESS:9870/ a podívat se na jmenný uzel, datový uzel atd.
Chcete-li zkontrolovat webový portál YARN, můžete přejít na adresu http://YOUR_SERVER_IP_ADDRESS:8088/
A je to. Úspěšně jste nainstalovali a nakonfigurovali Hadoop na Debian 11 VPS.
Samozřejmě nemusíte instalovat Hadoop na Debian 11, pokud u nás máte spravovaný server Debian. Můžete jednoduše požádat náš tým podpory, aby vám nainstaloval Hadoop na Debian 11. Jsou k dispozici 24 hodin denně, 7 dní v týdnu a budou vám schopni pomoci s instalací.
PS. Pokud se vám líbilo čtení tohoto blogového příspěvku o tom, jak nainstalovat Hadoop na Debian 11, můžete jej sdílet na sociálních sítích pomocí níže uvedených zkratek nebo jednoduše zanechat komentář v sekci komentářů. Děkuji.
Jak opravit příkaz Sudo, který nebyl nalezen v Debianu 10 Jak nainstalovat Fathom Analytics na Debian 11Debian