GNU/Linux >> Znalost Linux >  >> Cent OS

Jak nainstalovat Hadoop na RHEL 8 / CentOS 8 Linux

Apache Hadoop je open source framework používaný pro distribuované úložiště i distribuované zpracování velkých dat na klastrech počítačů, které běží na komoditních hardwarech. Hadoop ukládá data v Hadoop Distributed File System (HDFS) a zpracování těchto dat se provádí pomocí MapReduce. YARN poskytuje API pro vyžádání a přidělování prostředků v clusteru Hadoop.

Rámec Apache Hadoop se skládá z následujících modulů:

  • Hadoop Common
  • Hadoop Distributed File System (HDFS)
  • PŘÍZE
  • MapReduce

Tento článek vysvětluje, jak nainstalovat Hadoop verze 2 na RHEL 8 nebo CentOS 8. Nainstalujeme HDFS (Namenode a Datanode), YARN, MapReduce na cluster s jedním uzlem v Pseudo Distributed Mode, což je distribuovaná simulace na jednom počítači. Každý hadoop démon jako hdfs, yarn, mapreduce atd. poběží jako samostatný/individuální java proces.

V tomto tutoriálu se naučíte:

  • Jak přidat uživatele pro prostředí Hadoop
  • Jak nainstalovat a nakonfigurovat Oracle JDK
  • Jak nakonfigurovat SSH bez hesla
  • Jak nainstalovat Hadoop a nakonfigurovat potřebné související xml soubory
  • Jak spustit Hadoop Cluster
  • Jak získat přístup k webovému uživatelskému rozhraní NameNode a ResourceManager

Architektura HDFS.

Požadavky na software a použité konvence

Softwarové požadavky a konvence příkazového řádku systému Linux
Kategorie Požadavky, konvence nebo použitá verze softwaru
Systém RHEL 8 / CentOS 8
Software Hadoop 2.8.5, Oracle JDK 1.8
Jiné Privilegovaný přístup k vašemu systému Linux jako root nebo prostřednictvím sudo příkaz.
Konvence # – vyžaduje, aby dané linuxové příkazy byly spouštěny s právy root buď přímo jako uživatel root, nebo pomocí sudo příkaz
$ – vyžaduje, aby dané linuxové příkazy byly spouštěny jako běžný neprivilegovaný uživatel

Přidat uživatele pro prostředí Hadoop

Vytvořte nového uživatele a skupinu pomocí příkazu:

# useradd hadoop# passwd hadoop
[root@hadoop ~]# useradd hadoop[root@hadoop ~]# passwd hadoopZměna hesla pro uživatele hadoop.Nové heslo:Znovu zadejte nové heslo:passwd:všechny ověřovací tokeny byly úspěšně aktualizovány.[root@hadoop ~]# kočka / etc/passwd | grep hadoophadoop:x:1000:1000::/home/hadoop:/bin/bash

Nainstalujte a nakonfigurujte Oracle JDK

Stáhněte a nainstalujte oficiální balíček jdk-8u202-linux-x64.rpm pro instalaci Oracle JDK.

[root@hadoop ~]# rpm -ivh jdk-8u202-linux-x64.rpmwarning:jdk-8u202-linux-x64.rpm:Hlavička V3 RSA/SHA256 Podpis, ID klíče ec551f03:NOKEYVerifying... ## ############################### [100%]Příprava... ########### ##################### [100%]Aktualizace / instalace... 1:jdk1.8-2000:1.8.0_202-fcs ##### ############################ [100%]Rozbalování souborů JAR... tools.jar... plugin.jar... javaws.jar... deploy.jar... rt.jar... jsse.jar... charsets.jar... localedata.jar...

Po instalaci, abyste ověřili, že java byla úspěšně nakonfigurována, spusťte následující příkazy:

[root@hadoop ~]# java -versionjava verze "1.8.0_202" Java(TM) SE Runtime Environment (sestavení 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (sestavení 25.202-b08, smíšený režim)[root@hadoop ~]# update-alternatives --config javaJe zde 1 program, který poskytuje 'java'. Příkaz výběru-----------------------------------------------* + 1 /usr/java/jdk1.8.0_202-amd64/jre/bin/java

Konfigurace SSH bez hesla

Nainstalujte Open SSH Server a Open SSH Client, nebo pokud jsou již nainstalovány, zobrazí se níže uvedené balíčky.

[root@hadoop ~]# ot./min -qa | grep openssh*openssh-server-7.8p1-3.el8.x86_64openssl-libs-1.1.1-6.el8.x86_64openssl-1.1.1-6.el8.x86_64openssh-clients-7.8p1-3.el64.x p1-3.el8.x86_64openssl-pkcs11-0.4.8-2.el8.x86_64

Vygenerujte páry veřejných a soukromých klíčů pomocí následujícího příkazu. Terminál vás vyzve k zadání názvu souboru. Stiskněte ENTER a pokračujte. Poté zkopírujte veřejné klíče z formuláře id_rsa.pub na authorized_keys .

$ ssh-keygen -t rsa$ cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys$ chmod 640 ~/.ssh/authorized_keys
[hadoop@hadoop ~]$ ssh-keygen -t rsaGenerování páru veřejného/soukromého rsa klíčů.Zadejte soubor, do kterého se má klíč uložit (/home/hadoop/.ssh/id_rsa):Vytvořený adresář '/home/hadoop /.ssh'.Zadejte přístupové heslo (prázdné pro žádné heslo):Zadejte stejné přístupové heslo znovu:Vaše identifikace byla uložena do /home/hadoop/.ssh/id_rsa.Váš veřejný klíč byl uložen do /home/hadoop/.ssh/ id_rsa.pub. Otisk klíče je:SHA256:H+LLPkaJJDD7B0f0Je/NFJRP5/FUeJswMmZpJFXoelg [email protected]áhodný obrázek klíče je:+---[RSA 2048]----+| .. ..++*o .o|| o .. +.O.+o.+|| + . . * +oo==|| . o o E .oo|| . =.S.* o || . o.o=o || . .. o || .Ó. || o+. |+----[SHA256]-----+[hadoop@hadoop ~]$ cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys[hadoop@hadoop ~]$ chmod 640 ~/ .ssh/authorized_keys

Ověřte konfiguraci ssh bez hesla pomocí příkazu :

$ ssh  
[hadoop@hadoop ~]$ ssh hadoop.sandbox.comWebová konzole:https://hadoop.sandbox.com:9090/ nebo https://192.168.1.108:9090/Poslední přihlášení:So 13. dubna 12:09 :55 2019[hadoop@hadoop ~]$

Nainstalujte Hadoop a nakonfigurujte související soubory xml

Stáhněte a extrahujte Hadoop 2.8.5 z oficiálních stránek Apache.

# wget https://archive.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz# tar -xzvf hadoop-2.8.5.tar.gz 
[root@rhel8-sandbox ~]# wget https://archive.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz--2019-04- 13 11:14:03-- https://archive.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gzResolving archive.apache.org (archive.apache.org )... 163.172.17.199Připojování k archive.apache.org (archive.apache.org)|163.172.17.199|:443... připojeno.Požadavek HTTP odeslán, čeká se na odpověď... 200 OKDélka:246543928 (235M) [ application/x-gzip]Ukládání do:'hadoop-2.8.5.tar.gz'hadoop-2.8.5.tar.gz 100 %[========================================================================================>] 235,12 M 1,47 MB/s za 2 m 53s 2019-04-13 11:16:57 (1,36 MB/s) – 'hadoop-2.8.5 .tar.gz' uloženo [246543928/246543928]

Nastavení proměnných prostředí

Upravte bashrc pro uživatele Hadoop prostřednictvím nastavení následujících proměnných prostředí Hadoop:

 export HADOOP_HOME=/home/hadoop/hadoop-2.8.5
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
 

Zdrojový kód .bashrc v aktuální relaci přihlášení.

zdroj $ ~/.bashrc

Upravte soubor hadoop-env.sh soubor, který je v /etc/hadoop uvnitř instalačního adresáře Hadoop a proveďte následující změny a zkontrolujte, zda chcete změnit nějaké další konfigurace.

export JAVA_HOME=${JAVA_HOME:-"/usr/java/jdk1.8.0_202-amd64"}
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/home/hadoop/hadoop-2.8.5/etc/hadoop"}
 

Změny konfigurace v souboru core-site.xml

Upravte soubor core-site.xml s vim nebo můžete použít některý z editorů. Soubor je pod /etc/hadoop uvnitř hadoop domovský adresář a přidejte následující položky.

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop.sandbox.com:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadooptmpdata</value>
</property>
</configuration>
 

Kromě toho vytvořte adresář pod hadoop domovská složka.

$ mkdir hadooptmpdata

Změny konfigurace v souboru hdfs-site.xml

Upravte hdfs-site.xml který je přítomen pod stejným umístěním, tj. /etc/hadoop uvnitř hadoop instalační adresář a vytvořte Namenode/Datanode adresáře pod hadoop domovský adresář uživatele.

$ mkdir -p hdfs/namenode$ mkdir -p hdfs/datanode
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hdfs/datanode</value>
</property>
</configuration>
 

Změny konfigurace v souboru mapred-site.xml

Zkopírujte soubor mapred-site.xml z mapred-site.xml.template pomocí cp a poté upravte mapred-site.xml umístěn v /etc/hadoop pod hadoop instilační adresář s následujícími změnami.

$ cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
 

Změny konfigurace v souboru yarn-site.xml

Upravte yarn-site.xml s následujícími položkami.

<configuration>
<property>
<name>mapreduceyarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
 

Spuštění klastru Hadoop

Před prvním použitím jmenný uzel naformátujte. Jako uživatel hadoop spusťte níže uvedený příkaz k formátování Namenode.

$ hdfs namenode -format
[hadoop@hadoop ~]$ hdfs namenode -format19/04/13 11:54:10 INFO namenode.NameNode:STARTUP_MSG:/************************ *****************************************STARTUP_MSG:Počáteční NameNodeSTARTUP_MSG:uživatel =hadoopSTARTUP_MSG:hostitel =hadoop.sandbox.com/192.168.1.108STARTUP_MSG:args =[-formát]STARTUP_MSG:verze =2.8.519/04/13 11:54:17 INFO namenode.FSNamesystem:dfs.namenode.safect =bezpečný režim. 0,999000012874603319/04/13 11:54:17 INFO namenode.FSNamesystem:dfs.namenode.safemode.min.datanodes =019/04/13 11:54:17 INFO namenode.FSName.system. 04/13 11:54:18 INFO metrics.TopMetrics:NNTtop conf:dfs.namenode.top.window.num.buckets =1019/04/13 11:54:18 INFO metrics.TopMetrics:NNTtop conf:dfs.namenode. top.num.users =1019/04/13 11:54:18 INFO metrics.TopMetrics:NNTtop conf:dfs.namenode.top.windows.minutes =1,5,2519/04/13 11:54:18 INFO namenode .FSNamesystem:Opakovat mezipaměť na namenode je povolena19/04/13 11:54:18 INFO namenode.FS Namesystem:Mezipaměť pro opakování použije 0,03 z celkové haldy a doba vypršení záznamu mezipaměti pro opakování je 600 000 milis19/04/13 11:54:18 INFO util.GSet:Výpočetní kapacita pro mapu NameNodeRetryCache19/04/13 11:54:18 INFO util. GSet:Typ VM =64-bit19/04/13 11:54:18 INFO util.GSet:0,029999999329447746 % max. paměť 966,7 MB =297,0 KB19/04/13 11:54:18 kapacita INFO^5 GSet:18 =32768 záznamů19/04/13 11:54:18 INFO namenode.FSImage:Přiděleno nové BlockPoolId:BP-415167234-192.168.1.108-155514205816719/04/13:opytorage INFO/13 /oopytorage INFO:5had/181:5 /hdfs/namenode byl úspěšně naformátován.19/04/13 11:54:18 INFO namenode.FSImageFormatProtobuf:Ukládání souboru obrázku /home/hadoop/hdfs/namenode/current/fsimage.ckpt_0000000000000000901 pomocí komprese:11 54:18 INFO namenode.FSImageFormatProtobuf:Soubor obrázku /home/hadoop/hdfs/namenode/current/fsimage.ckpt_0000000000000000000 o velikosti 323 bajtů uloženo za 0 sekund.19/04/13 11:54name. anager:Chystáte se zachovat 1 obrázky s txid>=019/04/13 11:54:18 INFO util.ExitUtil:Ukončení se stavem 019/04/13 11:54:18 INFO namenode.NameNode:SHUTDOWN_MSG:/*** ******************************************************* *******SHUTDOWN_MSG:Vypínání NameNode na hadoop.sandbox.com/192.168.1.108****************************** *********************************/

Jakmile bude Namenode naformátován, spusťte HDFS pomocí start-dfs.sh skript.

$ start-dfs.sh 
[hadoop@hadoop ~]$ start-dfs.shSpouštění jmenných uzlů na [hadoop.sandbox.com]hadoop.sandbox.com:počáteční jmenný uzel, přihlášení do /home/hadoop/hadoop-2.8.5/logs/hadoop- hadoop-namenode-hadoop.sandbox.com.outhadoop.sandbox.com:spouštění datového uzlu, přihlašování do /home/hadoop/hadoop-2.8.5/logs/hadoop-hadoop-datanode-hadoop.sandbox.com.outSpouštění sekundárních jmenných uzlů [ 0.0.0.0]Autentičnost hostitele „0.0.0.0 (0.0.0.0)“ nelze zjistit. Otisk klíče ECDSA je SHA256:e+NfCeK/kvnignWDHgFvIkHjBWwghIIjJkfjygR7NkI. Opravdu chcete pokračovat v připojování (yyes no/ yes0.0.0.0:Varování:Trvale přidáno '0.0.0.0' (ECDSA) do seznamu známých hesel [email protected]:0.0.0.0:počínaje sekundárním jménemnode, přihlašování do /home/hadoop/hadoop- 2.8.5/logs/hadoop-hadoop-secondarynamenode-hadoop.sandbox.com.out

Chcete-li spustit služby YARN, musíte spustit skript pro zahájení příze, tj. start-yarn.sh

$ start-yarn.sh
[hadoop@hadoop ~]$ start-yarn.shstarting yarn daemonsspuštění resourcemanager, přihlášení do /home/hadoop/hadoop-2.8.5/logs/yarn-hadoop-resourcemanager-hadoop.sandbox.com.outhadoop.sandbox. com:spuštění nodemanager, přihlášení do /home/hadoop/hadoop-2.8.5/logs/yarn-hadoop-nodemanager-hadoop.sandbox.com.out

Chcete-li ověřit, zda jsou všechny služby/démony Hadoop úspěšně spuštěny, můžete použít jps příkaz.

$ jps2033 NameNode2340 SecondaryNameNode2566 ResourceManager2983 Jps2139 DataNode2671 NodeManager

Nyní můžeme zkontrolovat aktuální verzi Hadoop, můžete použít níže uvedený příkaz:

Verze $ hadoop

nebo

Verze $ hdfs
[hadoop@hadoop ~]$ verze hadoopHadoop 2.8.5Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 0b8464d75227fcee2c6e7f2410377b3d58Compiled3d50ComTcompiled31d50 protoc 2.5.0Ze zdroje s kontrolním součtem 9942ca5c745417c14e318835f420733Tento příkaz byl spuštěn pomocí /home/hadoop/hadoop-2.8.5/share/hadoop/common/hadoop-common-2.8.5.Hadoopsversion~2.8.5.hf5jar[pubhado.version] https://git-wip-us.apache.org/repos/asf/hadoop.git -r 0b8464d75227fcee2c6e7f2410377b3d53d3d5f8Compiled tím jdu na 2018-09-10T03:32ZCompiled s protoc 2.5.0From zdroje s vedením kontrolní součet 9942ca5c745417c14e318835f420733This byla provedena s použitím / home / hadoop/hadoop-2.8.5/share/hadoop/common/hadoop-common-2.8.5.jar[hadoop@hadoop ~]$

Rozhraní příkazového řádku HDFS

Pro přístup k HDFS a vytvoření některých adresářů v horní části DFS můžete použít HDFS CLI.

$ hdfs dfs -mkdir /testdata$ hdfs dfs -mkdir /hadoopdata$ hdfs dfs -ls /
[hadoop@hadoop ~]$ hdfs dfs -ls /Nalezeno 2 položekdrwxr-xr-x - hadoop supergroup 0 2019-04-13 11:58 /hadoopdatadrwxr-xr-x - hadoop supergroup 0 2019-114-11 :59 /testdata

Přístup k Namenode a YARN z prohlížeče

K webovému uživatelskému rozhraní pro NameNode a YARN Resource Manager můžete přistupovat prostřednictvím libovolného z prohlížečů, jako je Google Chrome/Mozilla Firefox.

Webové uživatelské rozhraní Namenode – http://<hadoop cluster hostname/IP address>:50070

Webové uživatelské rozhraní namenode.

Podrobné informace o HDFS.

Procházení adresářů HDFS.

Webové rozhraní YARN Resource Manager (RM) zobrazí všechny běžící úlohy v aktuálním klastru Hadoop.

Webové uživatelské rozhraní Správce prostředků – http://<hadoop cluster hostname/IP address>:8088

Webové uživatelské rozhraní správce zdrojů (YARN).

Závěr

Svět v současnosti mění způsob, jakým funguje, a Big-data hrají v této fázi hlavní roli. Hadoop je framework, který nám usnadňuje život při práci na velkých souborech dat. Zlepšení jsou na všech frontách. Budoucnost je vzrušující.


Cent OS
  1. Jak nainstalovat redmine na RHEL 8 / CentOS 8 Linux

  2. Jak nainstalovat DNS server na RHEL 8 / CentOS 8 Linux

  3. Jak nainstalovat PostgreSQL na CentOS 8 / Rocky Linux 8 / RHEL 8

  1. Jak nainstalovat Perl na RHEL 8 / CentOS 8 Linux

  2. Jak nainstalovat apache tomcat na Linux RHEL 8 / CentOS 8

  3. Jak nainstalovat node.js na RHEL 8 / CentOS 8 Linux

  1. Jak nainstalovat Xdebug na RHEL 8 / CentOS 8 Linux

  2. Jak nainstalovat hvězdičku na RHEL 8 / CentOS 8 Linux

  3. Jak nainstalovat Apache na RHEL 8 / CentOS 8 Linux