Apache Spark je open-source výpočetní rámec pro zpracování analytických dat a strojového učení ve velkém měřítku. Podporuje různé preferované jazyky, jako je scala, R, Python a Java. Poskytuje nástroje na vysoké úrovni pro streamování jisker, GraphX pro zpracování grafů, SQL, MLLib.
Zde v LinuxAPT, jako součást našich služeb správy serveru, pravidelně pomáháme našim zákazníkům provádět související dotazy na systém Linux.
V této souvislosti se podíváme na to, jak nainstalovat a nakonfigurovat Apache Spark na verzi systému Ubuntu 20.04 LTS.
Před instalací Apache Spark musíte do systému nainstalovat Scala.
Jak nainstalovat Scala na Ubuntu?
Pokud jste nenainstalovali Javu a Scala, můžete je nainstalovat podle následujícího postupu.
Pro Javu nainstalujeme otevřenou verzi JDK 8 nebo si můžete nainstalovat svou preferovanou verzi spuštěním následujících příkazů:
$ sudo apt update
$ sudo apt install openjdk-8-jdk
Pokud potřebujete ověřit instalaci java, můžete provést následující příkaz:
$ java -version
Pokud jde o Scala, scala je objektově orientovaný a funkční programovací jazyk, který jej spojuje do jediného stručného. Scala je kompatibilní jak s javascriptovým runtime, tak s JVM, což vám poskytuje snadný přístup k ekosystému velkých knihoven, který pomáhá při budování vysoce výkonného systému. Chcete-li nainstalovat scala, spusťte následující příkaz apt:
$ sudo apt update
$ sudo apt install scala
Nyní zkontrolujte verzi a ověřte instalaci:
$ scala -version
Jak nainstalovat Apache Spark na Ubuntu?
Neexistuje žádné oficiální úložiště apt pro instalaci apache-spark, ale můžete si předkompilovat binární soubor z oficiálních stránek. Ke stažení binárního souboru použijte následující příkaz wget a odkaz:
$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
Nyní rozbalte stažený binární soubor pomocí následujícího příkazu tar:
$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz
Nakonec přesuňte extrahované soubory Spark do adresáře /opt:
$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark
Jak nastavit proměnné prostředí Apache Spark?
Proměnnou cesty pro jiskru ve vašem .profile v souboru, který je potřeba nastavit, aby příkaz fungoval bez úplné cesty, můžete tak učinit buď pomocí příkazu echo, nebo ručně pomocí preferovaného textového editoru. Pro snazší způsob spusťte následující příkaz echo:
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Všimnete si, že proměnná path je připojena na konec souboru .profile pomocí operace echo s>>.
Nyní spusťte následující příkaz, abyste použili nové změny proměnné prostředí:
$ source ~/.profile
Jak nasadit Apache Spark po instalaci a nastavení?
Nyní jsme pomocí následujícího příkazu nastavili vše, co můžeme spustit hlavní službu i pracovní službu:
$ start-master.sh
Uvidíte, že služba spark master běží na portu 8080. Pokud procházíte localhost na portu 8080, což je výchozí port spark. Při procházení adresy URL se můžete setkat s následujícím typem uživatelského rozhraní. Spuštěním pouze hlavní služby nemusíte najít spuštěný žádný pracovní procesor. Když spustíte službu Worker, najdete v seznamu nový uzel.
Když otevřete hlavní stránku v prohlížeči, můžete vidět spark master spark://HOST:PORT URL, která se používá k připojení pracovních služeb přes tohoto hostitele. Pro mého aktuálního hostitele je moje hlavní adresa URL sparku spark://Linuxapt.localdomain:7077, takže ke spuštění pracovního procesu musíte provést příkaz následujícím způsobem:
$ start-workers.sh <spark-master-url>
Chcete-li spustit následující příkaz ke spuštění pracovních služeb:
$ start-workers.sh spark://Linuxapt.localdomain:7077
Spark-shell můžete také použít provedením následujícího příkazu:
$ spark-shell