GNU/Linux >> Znalost Linux >  >> Cent OS

Jak nainstalovat Apache Hadoop na CentOS 7

V tomto tutoriálu vám ukážeme, jak nainstalovat Apache Hadoop na CentOS 7. Pro ty z vás, kteří nevěděli, Apache Hadoop je open-source softwarový framework napsaný v Javě pro distribuované úložiště a distribuční procesy, zpracovává velmi velké soubory dat tím, že je distribuuje mezi počítačové clustery. Spíše než se spoléhat na hardware při poskytování vysoké dostupnosti, je samotná knihovna navržena tak, aby detekovala a řešila selhání na aplikační vrstvě, takže poskytuje vysoce -dostupná služba nad shlukem počítačů, z nichž každý může být náchylný k selhání.

Tento článek předpokládá, že máte alespoň základní znalosti Linuxu, víte, jak používat shell, a co je nejdůležitější, hostujete své stránky na vlastním VPS. Instalace je poměrně jednoduchá. ukázat vám krok za krokem instalaci Apache Hadoop na CentOS 7.

Předpoklady

  • Server s jedním z následujících operačních systémů:CentOS 7.
  • Abyste předešli případným problémům, doporučujeme použít novou instalaci operačního systému.
  • Přístup SSH k serveru (nebo stačí otevřít Terminál, pokud jste na počítači).
  • non-root sudo user nebo přístup k root user . Doporučujeme jednat jako non-root sudo user , protože však můžete poškodit svůj systém, pokud nebudete při jednání jako root opatrní.

Nainstalujte Apache Hadoop na CentOS 7

Krok 1. Nainstalujte Javu.

Vzhledem k tomu, že Hadoop je založen na Javě, ujistěte se, že máte v systému nainstalovanou Java JDK. Pokud v systému Java nainstalovanou nemáte, použijte následující odkaz jej nejprve nainstalujte.

  • Nainstalujte Java JDK 8 na CentOS 7
[email protected] ~# java -version
java version "1.8.0_45"
Java(TM) SE Runtime Environment (build 1.8.0_45-b14)
Java HotSpot(TM) 64-Bit Server VM (build 25.45-b02, mixed mode)

Krok 2. Nainstalujte Apache Hadoop.

Pro konfiguraci apache Hadoop se doporučuje vytvořit normálního uživatele, vytvořte uživatele pomocí následujícího příkazu:

useradd hadoop
passwd hadoop

Po vytvoření uživatele je také nutné nastavit klíčový ssh pro jeho vlastní účet. K tomu použijte následující příkazy:

su - hadoop
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

Stáhněte si nejnovější stabilní verzi Apache Hadoop, v době psaní tohoto článku je to verze 2.7.0:

wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.0/hadoop-2.7.0.tar.gz
tar xzf hadoop-2.7.0.tar.gz
mv hadoop-2.7.0 hadoop

Krok 3. Nakonfigurujte Apache Hadoop.

Nastavte proměnné prostředí používané Hadoopem. Upravte soubor ~/.bashrc a na konec souboru připojte následující hodnoty:

export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

Použití proměnných prostředí na aktuálně běžící relaci:

source ~/.bashrc

Nyní upravte $HADOOP_HOME/etc/hadoop/hadoop-env.sh soubor a nastavte proměnnou prostředí JAVA_HOME:

export JAVA_HOME=/usr/jdk1.8.0_45/

Hadoop má mnoho konfiguračních souborů, které je třeba nakonfigurovat podle požadavků vaší infrastruktury Hadoop. Začněme s konfigurací základním nastavením clusteru Hadoop s jedním uzlem:

cd $HADOOP_HOME/etc/hadoop

Upravit core-site.xml :

<configuration>
<property>
  <name>fs.default.name</name>
    <value>hdfs://localhost:9000</value>
</property>
</configuration>

Upravit hdfs-site.xml :

<configuration>
<property>
 <name>dfs.replication</name>
 <value>1</value>
</property>

<property>
  <name>dfs.name.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>
</property>

<property>
  <name>dfs.data.dir</name>
    <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>
</property>
</configuration>

Upravit mapred-site.xml :

<configuration>
 <property>
  <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

Upravit yarn-site.xml :

<configuration>
 <property>
  <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
 </property>
</configuration>

Nyní naformátujte namenode pomocí následujícího příkazu, nezapomeňte zkontrolovat adresář úložiště:

hdfs namenode -format

Spusťte všechny služby Hadoop pomocí následujícího příkazu:

cd $HADOOP_HOME/sbin/
start-dfs.sh
start-yarn.sh

Pro kontrolu, zda jsou všechny služby spuštěny dobře, použijte ‘jps ‘ příkaz:

jps

Krok 4. Přístup k Apache Hadoop.

Apache Hadoop bude ve výchozím nastavení k dispozici na portu HTTP 8088 a portu 50070. Otevřete svůj oblíbený prohlížeč a přejděte na http://your-domain.com:50070 nebo http://server-ip:50070 . Pokud používáte bránu firewall, otevřete porty 8088 a 50070, abyste umožnili přístup k ovládacímu panelu.

Nyní přejděte na port 8088 pro získání informací o clusteru a všech aplikacích:

Blahopřejeme! Úspěšně jste nainstalovali Apache Hadoop. Děkujeme, že jste použili tento návod k instalaci Apache Hadoop na systém CentOS 7. Pro další pomoc nebo užitečné informace vám doporučujeme navštívit oficiální web Apache Hadoop.


Cent OS
  1. Jak nainstalovat Apache ActiveMQ na CentOS 7

  2. Jak nainstalovat Apache Hadoop na CentOS 8

  3. Jak nainstalovat Apache Hadoop na Ubuntu 14.04

  1. Jak nainstalovat Java 11 &12 na CentOS 7

  2. Jak nainstalovat Java 8 &11 na Centos 8

  3. Jak nainstalovat Apache Hadoop na CentOS 7, Ubuntu 18.04 a Debian 9

  1. Jak nainstalovat Apache Cassandra na CentOS 8

  2. Jak nainstalovat Java na CentOS 7

  3. Jak nainstalovat Apache na CentOS 7