GNU/Linux >> Znalost Linux > >> Ubuntu

Nainstalujte a nakonfigurujte Apache Spark na Ubuntu 20.04

Apache Spark je open-source výpočetní rámec pro zpracování analytických dat a strojového učení ve velkém měřítku. Podporuje různé preferované jazyky, jako je scala, R, Python a Java. Poskytuje nástroje na vysoké úrovni pro streamování jisker, GraphX pro zpracování grafů, SQL, MLLib.

Zde v LinuxAPT, jako součást našich služeb správy serveru, pravidelně pomáháme našim zákazníkům provádět související dotazy na systém Linux.

V této souvislosti se podíváme na to, jak nainstalovat a nakonfigurovat Apache Spark na verzi systému Ubuntu 20.04 LTS.

Před instalací Apache Spark musíte do systému nainstalovat Scala.

Jak nainstalovat Scala na Ubuntu?

Pokud jste nenainstalovali Javu a Scala, můžete je nainstalovat podle následujícího postupu.

Pro Javu nainstalujeme otevřenou verzi JDK 8 nebo si můžete nainstalovat svou preferovanou verzi spuštěním následujících příkazů:

$ sudo apt update
$ sudo apt install openjdk-8-jdk

Pokud potřebujete ověřit instalaci java, můžete provést následující příkaz:

$ java -version

Pokud jde o Scala, scala je objektově orientovaný a funkční programovací jazyk, který jej spojuje do jediného stručného. Scala je kompatibilní jak s javascriptovým runtime, tak s JVM, což vám poskytuje snadný přístup k ekosystému velkých knihoven, který pomáhá při budování vysoce výkonného systému. Chcete-li nainstalovat scala, spusťte následující příkaz apt:

$ sudo apt update
$ sudo apt install scala

Nyní zkontrolujte verzi a ověřte instalaci:

$ scala -version

Jak nainstalovat Apache Spark na Ubuntu?

Neexistuje žádné oficiální úložiště apt pro instalaci apache-spark, ale můžete si předkompilovat binární soubor z oficiálních stránek. Ke stažení binárního souboru použijte následující příkaz wget a odkaz:

$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Nyní rozbalte stažený binární soubor pomocí následujícího příkazu tar:

$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz

Nakonec přesuňte extrahované soubory Spark do adresáře /opt:

$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

Jak nastavit proměnné prostředí Apache Spark?

Proměnnou cesty pro jiskru ve vašem .profile v souboru, který je potřeba nastavit, aby příkaz fungoval bez úplné cesty, můžete tak učinit buď pomocí příkazu echo, nebo ručně pomocí preferovaného textového editoru. Pro snazší způsob spusťte následující příkaz echo:

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Všimnete si, že proměnná path je připojena na konec souboru .profile pomocí operace echo s>>.

Nyní spusťte následující příkaz, abyste použili nové změny proměnné prostředí:

$ source ~/.profile

Jak nasadit Apache Spark po instalaci a nastavení?

Nyní jsme pomocí následujícího příkazu nastavili vše, co můžeme spustit hlavní službu i pracovní službu:

$ start-master.sh

Uvidíte, že služba spark master běží na portu 8080. Pokud procházíte localhost na portu 8080, což je výchozí port spark. Při procházení adresy URL se můžete setkat s následujícím typem uživatelského rozhraní. Spuštěním pouze hlavní služby nemusíte najít spuštěný žádný pracovní procesor. Když spustíte službu Worker, najdete v seznamu nový uzel.

Když otevřete hlavní stránku v prohlížeči, můžete vidět spark master spark://HOST:PORT URL, která se používá k připojení pracovních služeb přes tohoto hostitele. Pro mého aktuálního hostitele je moje hlavní adresa URL sparku spark://Linuxapt.localdomain:7077, takže ke spuštění pracovního procesu musíte provést příkaz následujícím způsobem:

$ start-workers.sh <spark-master-url>

Chcete-li spustit následující příkaz ke spuštění pracovních služeb:

$ start-workers.sh spark://Linuxapt.localdomain:7077

Spark-shell můžete také použít provedením následujícího příkazu:

$ spark-shell

Správa spouštěcích programů na Ubuntu 20.04 – správný způsob? Nainstalovat ROS Noetic na Linux Mint 20 – průvodce krok za krokem?

Ubuntu