Apache Spark je open-source distribuovaný výpočetní rámec, který je vytvořen, aby poskytoval rychlejší výpočetní výsledky. Jedná se o in-memory výpočetní engine, což znamená, že data budou zpracována v paměti.
Spark podporuje různá API pro streamování, zpracování grafů, SQL, MLLib. Podporuje také Javu, Python, Scala a R jako preferované jazyky. Spark je většinou nainstalován v clusterech Hadoop, ale můžete také nainstalovat a nakonfigurovat spark v samostatném režimu.
V tomto článku se podíváme na to, jak nainstalovat Apache Spark v Debianu a Ubuntu -založené distribuce.
Nainstalujte Java a Scala v Ubuntu
Chcete-li nainstalovat Apache Spark v Ubuntu musíte mít Java a Scala nainstalovaný na vašem počítači. Většina moderních distribucí je standardně dodávána s nainstalovanou Javou a můžete to ověřit pomocí následujícího příkazu.
$ java -version

Pokud žádný výstup, můžete nainstalovat Javu pomocí našeho článku o tom, jak nainstalovat Javu na Ubuntu, nebo jednoduše spustit následující příkazy a nainstalovat Javu na Ubuntu a distribuce založené na Debianu.
$ sudo apt update $ sudo apt install default-jre $ java -version

Dále můžete nainstalovat Scala z úložiště apt spuštěním následujících příkazů pro vyhledání scala a jeho instalaci.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package

Chcete-li ověřit instalaci Scala , spusťte následující příkaz.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Nainstalujte Apache Spark v Ubuntu
Nyní přejděte na oficiální stránku stahování Apache Spark a stáhněte si nejnovější verzi (tj. 3.1.1) v době psaní tohoto článku. Případně můžete použít příkaz wget ke stažení souboru přímo v terminálu.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Nyní otevřete svůj terminál a přepněte se na místo, kde je umístěn váš stažený soubor, a spusťte následující příkaz pro extrahování souboru tar Apache Spark.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Nakonec přesuňte extrahovanou Spark do adresáře /opt adresář.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Konfigurace proměnných prostředí pro Spark
Nyní musíte ve svém .profile nastavit několik proměnných prostředí soubor před spuštěním jiskry.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Abyste se ujistili, že tyto nové proměnné prostředí jsou dosažitelné v rámci prostředí a dostupné pro Apache Spark, je také povinné spustit následující příkaz, aby se poslední změny projevily.
$ source ~/.profile
Všechny binární soubory související s jiskrami pro spuštění a zastavení služeb jsou pod sbin složka.
$ ls -l /opt/spark

Spusťte Apache Spark v Ubuntu
Spuštěním následujícího příkazu spustíte Spark hlavní služba a podřízená služba.
$ start-master.sh $ start-workers.sh spark://localhost:7077

Jakmile je služba spuštěna, přejděte do prohlížeče a zadejte následující stránku pro přístup k URL. Na stránce můžete vidět, jak je spuštěna moje hlavní a podřízená služba.
http://localhost:8080/ OR http://127.0.0.1:8080

Můžete také zkontrolovat, zda spark-shell funguje dobře po spuštění spark-shell příkaz.
$ spark-shell

To je pro tento článek vše. Již brzy vás zastihneme dalším zajímavým článkem.