GNU/Linux >> Znalost Linux > >> Ubuntu

Jak nainstalovat a nakonfigurovat Apache Spark na Ubuntu 20.04

Apache Spark je open-source výpočetní rámec pro zpracování analytických dat a strojového učení ve velkém měřítku. Podporuje různé preferované jazyky, jako je scala, R, Python a Java. Poskytuje nástroje na vysoké úrovni pro streamování jisker, GraphX pro zpracování grafů, SQL, MLLib.

V tomto článku se seznámíte se způsobem instalace a konfigurace Apache Spark na ubuntu. K demonstraci toku v tomto článku jsem použil systém verze Ubuntu 20.04 LTS. Před instalací Apache Spark musíte na svůj systém nainstalovat Scala i scalu.

Instalace Scala

Pokud jste nenainstalovali Javu a Scala, můžete je nainstalovat podle následujícího postupu.

Pro Javu nainstalujeme otevřený JDK 8 nebo si můžete nainstalovat svou preferovanou verzi.

$ sudo apt update

$ sudo apt install openjdk-8-jdk

Pokud potřebujete ověřit instalaci java, můžete provést následující příkaz.

$ java -version

Pokud jde o Scala, scala je objektově orientovaný a funkční programovací jazyk, který jej spojuje do jediného stručného. Scala je kompatibilní jak s javascriptovým runtime, tak s JVM, což vám poskytuje snadný přístup k ekosystému velkých knihoven, který pomáhá při budování vysoce výkonného systému. Spusťte následující příkaz apt pro instalaci scala.

$ sudo apt update

$ sudo apt install scala

Nyní zkontrolujte verzi a ověřte instalaci.

$ scala -version

Instalace Apache Spark

Neexistuje žádné oficiální úložiště apt pro instalaci apache-spark, ale můžete si předkompilovat binární soubor z oficiálních stránek. Ke stažení binárního souboru použijte následující příkaz wget a odkaz.

$ wget https://downloads.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Nyní rozbalte stažený binární soubor pomocí následujícího příkazu tar.

$ tar -xzvf spark-3.1.2-bin-hadoop3.2.tgz

Nakonec přesuňte extrahované soubory Spark do adresáře /opt.

$ sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

Nastavení proměnných prostředí

Proměnnou cesty pro jiskru ve vašem .profile v souboru, který je potřeba nastavit, aby příkaz fungoval bez úplné cesty, můžete tak učinit buď pomocí příkazu echo, nebo ručně pomocí preferovaného textového editoru. Pro snazší způsob spusťte následující příkaz echo.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile

$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile

$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Jak můžete vidět, proměnná path je připojena na konec souboru .profile pomocí operace echo s>>.

Nyní spusťte následující příkaz, abyste použili nové změny proměnné prostředí.

$ source ~/.profile

Nasazení Apache Spark

Nyní jsme pomocí následujícího příkazu nastavili vše, co můžeme spustit jak hlavní službu, tak pracovní službu.

$ start-master.sh

Jak můžete vidět, naše služba spark master běží na portu 8080. Pokud procházíte localhost na portu 8080, což je výchozí port spark. Při procházení adresy URL se můžete setkat s následujícím typem uživatelského rozhraní. Spuštěním pouze hlavní služby nemusíte najít spuštěný žádný pracovní procesor. Když spustíte službu Worker, najdete nový uzel v seznamu stejně jako v následujícím příkladu.

Když otevřete hlavní stránku v prohlížeči, můžete vidět spark master spark://HOST:PORT URL, která se používá k připojení pracovních služeb přes tohoto hostitele. Pro mého aktuálního hostitele je moje hlavní adresa URL sparku spark://Linuxways.localdomain:7077, takže ke spuštění pracovního procesu musíte provést příkaz následujícím způsobem.

$ start-workers.sh <spark-master-url>

Chcete-li spustit následující příkaz ke spuštění pracovních služeb.

$ start-workers.sh spark://Linuxways.localdomain:7077

Spark-shell můžete také použít provedením následujícího příkazu.

$ spark-shell

Závěr

Doufám, že z tohoto článku se dozvíte, jak nainstalovat a nakonfigurovat apache spark na ubuntu. V tomto článku jsem se snažil, aby byl proces co nejsrozumitelnější.

Jak spravovat spouštěcí programy na Ubuntu 20.04 Jak nainstalovat GNS3 na Ubuntu 20.04

Ubuntu