GNU/Linux >> Znalost Linux > >> Ubuntu

Jak nainstalovat a nastavit Apache Spark na Ubuntu/Debian

Apache Spark je open-source distribuovaný výpočetní rámec, který je vytvořen, aby poskytoval rychlejší výpočetní výsledky. Jedná se o in-memory výpočetní engine, což znamená, že data budou zpracována v paměti.

Spark podporuje různá API pro streamování, zpracování grafů, SQL, MLLib. Podporuje také Javu, Python, Scala a R jako preferované jazyky. Spark je většinou nainstalován v clusterech Hadoop, ale můžete také nainstalovat a nakonfigurovat spark v samostatném režimu.

V tomto článku se podíváme na to, jak nainstalovat Apache Spark v Debianu a Ubuntu -založené distribuce.

Nainstalujte Java a Scala v Ubuntu

Chcete-li nainstalovat Apache Spark v Ubuntu musíte mít Java a Scala nainstalovaný na vašem počítači. Většina moderních distribucí je standardně dodávána s nainstalovanou Javou a můžete to ověřit pomocí následujícího příkazu.

$ java -version

Pokud žádný výstup, můžete nainstalovat Javu pomocí našeho článku o tom, jak nainstalovat Javu na Ubuntu, nebo jednoduše spustit následující příkazy a nainstalovat Javu na Ubuntu a distribuce založené na Debianu.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Dále můžete nainstalovat Scala z úložiště apt spuštěním následujících příkazů pro vyhledání scala a jeho instalaci.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Chcete-li ověřit instalaci Scala , spusťte následující příkaz.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Nainstalujte Apache Spark v Ubuntu

Nyní přejděte na oficiální stránku stahování Apache Spark a stáhněte si nejnovější verzi (tj. 3.1.1) v době psaní tohoto článku. Případně můžete použít příkaz wget ke stažení souboru přímo v terminálu.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Nyní otevřete svůj terminál a přepněte se na místo, kde je umístěn váš stažený soubor, a spusťte následující příkaz pro extrahování souboru tar Apache Spark.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Nakonec přesuňte extrahovanou Spark do adresáře /opt adresář.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Konfigurace proměnných prostředí pro Spark

Nyní musíte ve svém .profile nastavit několik proměnných prostředí soubor před spuštěním jiskry.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Abyste se ujistili, že tyto nové proměnné prostředí jsou dosažitelné v rámci prostředí a dostupné pro Apache Spark, je také povinné spustit následující příkaz, aby se poslední změny projevily.

$ source ~/.profile

Všechny binární soubory související s jiskrami pro spuštění a zastavení služeb jsou pod sbin složka.

$ ls -l /opt/spark

Spusťte Apache Spark v Ubuntu

Spuštěním následujícího příkazu spustíte Spark hlavní služba a podřízená služba.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Jakmile je služba spuštěna, přejděte do prohlížeče a zadejte následující stránku pro přístup k URL. Na stránce můžete vidět, jak je spuštěna moje hlavní a podřízená služba.

http://localhost:8080/
OR
http://127.0.0.1:8080

Můžete také zkontrolovat, zda spark-shell funguje dobře po spuštění spark-shell příkaz.

$ spark-shell

To je pro tento článek vše. Již brzy vás zastihneme dalším zajímavým článkem.

Jak nainstalovat nejnovější XFCE Desktop v Ubuntu a Fedoře Jak nainstalovat Apache Nifi v Ubuntu Linux

Ubuntu