V tomto tutoriálu vám ukážeme, jak nainstalovat Apache Spark na CentOS 8. Pro ty z vás, kteří nevěděli, Apache Spark je rychlý a univerzální clusterový výpočetní systém. Poskytuje rozhraní API na vysoké úrovni v jazycích Java, Scala a Python a také optimalizovaný engine, který podporuje celkové grafy provádění. Podporuje také bohatou sadu nástrojů vyšší úrovně včetně Spark SQL pro SQL a zpracování strukturovaných informací, MLlib pro strojové učení , GraphX pro zpracování grafů a Spark Streaming.
Tento článek předpokládá, že máte alespoň základní znalosti Linuxu, víte, jak používat shell, a co je nejdůležitější, hostujete svůj web na svém vlastním VPS. Instalace je poměrně jednoduchá a předpokládá, že běží v účtu root, pokud ne, možná budete muset přidat 'sudo
‘ k příkazům pro získání oprávnění root. Ukážu vám krok za krokem instalaci Apache Spark na CentOS 8.
Předpoklady
- Server s jedním z následujících operačních systémů:CentOS 8.
- Abyste předešli případným problémům, doporučujeme použít novou instalaci operačního systému.
non-root sudo user
nebo přístup kroot user
. Doporučujeme jednat jakonon-root sudo user
, protože však můžete poškodit svůj systém, pokud nebudete při jednání jako root opatrní.
Nainstalujte Apache Spark na CentOS 8
Krok 1. Nejprve začněme tím, že zajistíme, aby byl váš systém aktuální, a nainstalujte všechny požadované závislosti.
sudo dnf install epel-release sudo dnf update
Krok 2. Instalace Java.
Instalace Java v tomto článku byla popsána v předchozím článku. Budeme odkazovat na článek o instalaci Java. Poté zkontrolujeme verzi Java pomocí příkazového řádku níže:
java -version
Krok 3. Instalace Scala.
Apache Spark je implementován v programovacím jazyce Scala, takže pro spuštění Apache Spark musíme nainstalovat Scala, takže se musíme ujistit, že jsou přítomny Java a Python:
wget https://www.scala-lang.org/files/archive/scala-2.13.4.tgz tar xvf scala-2.13.4.tgz sudo mv scala-2.13.4 /usr/lib sudo ln -s /usr/lib/scala-2.13.4 /usr/lib/scala export PATH=$PATH:/usr/lib/scala/bin
Po instalaci zkontrolujte verzi scala:
scala -version
Krok 4. Instalace Apache Spark na CentOS 8.
Nyní stahujeme nejnovější verzi Apache Spark z oficiálního zdroje:
wget https://downloads.apache.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz tar -xzf spark-3.0.1-bin-hadoop2.7.tgz export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin
Před spuštěním jiskry nastavte některé proměnné prostředí:
echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile echo 'export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7' >> .bash_profile echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile
Samostatný cluster Spark lze spustit ručně, tj. spuštěním spouštěcího skriptu na každém uzlu, nebo jednoduše pomocí dostupných spouštěcích skriptů. Pro testování můžeme spustit hlavní a podřízené démony na stejném počítači:
./sbin/start-master.sh
Krok 5. Nakonfigurujte bránu firewall pro Apache Spark.
Spuštěním následujícího příkazu otevřete port na bráně firewall:
sudo firewall-cmd --permanent --zone=public --add-port=7077/tcp sudo firewall-cmd --reload
Krok 6. Přístup k webovému rozhraní Apache Spark.
Apache Spark bude ve výchozím nastavení k dispozici na portu HTTP 7077. Otevřete svůj oblíbený prohlížeč a přejděte na http://your-domain.com:7077
nebo http://server-ip-address:7077
a dokončete požadované kroky k dokončení instalace.
Blahopřejeme! Úspěšně jste nainstalovali Apache Spark. Děkujeme, že jste použili tento návod k instalaci open-source frameworku Apache Spark do vašeho systému CentOS 8. Pro další pomoc nebo užitečné informace doporučujeme zkontrolovat oficiální webové stránky Apache Spark.