GNU/Linux >> Znalost Linux > >> Cent OS

Jak nainstalovat Apache Spark na CentOS 7

V tomto tutoriálu vám ukážeme, jak nainstalovat Apache Spark na server CentOS 7. Pro ty z vás, kteří nevěděli, Apache Spark je rychlý a univerzální clusterový výpočetní systém . Poskytuje API na vysoké úrovni v Javě, Scale a Pythonu a také optimalizovaný engine, který podporuje celkové grafy provádění. Podporuje také bohatou sadu nástrojů vyšší úrovně včetně Spark SQL pro SQL a zpracování strukturovaných informací, MLlib pro stroj učení, GraphX pro zpracování grafů a Spark Streaming.

Tento článek předpokládá, že máte alespoň základní znalosti Linuxu, víte, jak používat shell, a co je nejdůležitější, hostujete svůj web na vlastním VPS. Instalace je poměrně jednoduchá a předpokládá, že běží v účtu root, pokud ne, možná budete muset přidat 'sudo ‘ k příkazům pro získání oprávnění root. Ukážu vám krok za krokem instalaci Apache Spark na server CentOS 7.

Nainstalujte Apache Spark na CentOS 7

Krok 1. Nejprve začněme tím, že zajistíme, aby byl váš systém aktuální.

yum clean all
yum -y install epel-release
yum -y update

Krok 2. Instalace Java.

Instalace java pro požadavek install apache-spark:

yum install java -y

Po instalaci zkontrolujte verzi Java:

java -version

Krok 3. Instalace Scala.

Spark nainstaluje Scala během instalačního procesu, takže se musíme ujistit, že jsou přítomny Java a Python:

wget http://www.scala-lang.org/files/archive/scala-2.10.1.tgz
tar xvf scala-2.10.1.tgz
sudo mv scala-2.10.1 /usr/lib
sudo ln -s /usr/lib/scala-2.10.1 /usr/lib/scala
export PATH=$PATH:/usr/lib/scala/bin

Po instalaci zkontrolujte verzi scala:

scala -version

Krok 4. Instalace Apache Spark.

Nainstalujte Apache Spark pomocí následujícího příkazu:

wget http://www-eu.apache.org/dist/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.tgz
tar -xzf spark-2.2.1-bin-hadoop2.7.tgz
export SPARK_HOME=$HOME/spark-2.2.1-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin

Před spuštěním jiskry nastavte některé proměnné prostředí:

echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile
echo 'export SPARK_HOME=$HOME/spark-2.2.1-bin-hadoop2.6' >> .bash_profile
echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile

Samostatný cluster Spark lze spustit ručně, tj. spuštěním spouštěcího skriptu na každém uzlu, nebo jednoduše pomocí dostupných spouštěcích skriptů. Pro testování můžeme spustit hlavní a podřízené démony na stejném počítači:

./sbin/start-master.sh

Krok 5. Nakonfigurujte bránu firewall pro Apache Spark.

firewall-cmd --permanent --zone=public --add-port=6066/tcp
firewall-cmd --permanent --zone=public --add-port=7077/tcp
firewall-cmd --permanent --zone=public --add-port=8080-8081/tcp
firewall-cmd --reload

Krok 6. Přístup k Apache Spark.

Apache Spark bude ve výchozím nastavení k dispozici na portu HTTP 7077. Otevřete svůj oblíbený prohlížeč a přejděte na http://yourdomain.com:7077 nebo http://your-server-ip:7077 a dokončete požadované kroky k dokončení instalace.

Blahopřejeme! Úspěšně jste nainstalovali Apache Spark na CentOS 7. Děkujeme, že jste použili tento návod k instalaci Apache Spark na systémy CentOS 7. Pro další nápovědu nebo užitečné informace vám doporučujeme zkontrolovat oficiální Apache Web Spark.

Jak nainstalovat hlavní verzi Nginx na CentOS 7 Jak nainstalovat Buildbot na CentOS 7

Cent OS