GNU/Linux >> Znalost Linux > >> Ubuntu

Jak nainstalovat Apache Spark na Ubuntu 20.04 LTS

V tomto tutoriálu vám ukážeme, jak nainstalovat Apache Spark na Ubuntu 20.04 LTS. Pro ty z vás, kteří nevěděli, Apache Spark je rychlý a univerzální clusterový výpočetní systém . Poskytuje API na vysoké úrovni v Javě, Scale a Pythonu a také optimalizovaný engine, který podporuje celkové grafy provádění. Podporuje také bohatou sadu nástrojů vyšší úrovně včetně Spark SQL pro SQL a zpracování strukturovaných informací, MLlib pro stroj učení, GraphX pro zpracování grafů a Spark Streaming.

Tento článek předpokládá, že máte alespoň základní znalosti Linuxu, víte, jak používat shell, a co je nejdůležitější, hostujete svůj web na vlastním VPS. Instalace je poměrně jednoduchá a předpokládá, že běží v účtu root, pokud ne, možná budete muset přidat 'sudo ‘ k příkazům pro získání oprávnění root. Ukážu vám krok za krokem instalaci Apache Spark na server 20.04 LTS (Focal Fossa). Můžete postupovat podle stejných pokynů pro Ubuntu 18.04, 16.04 a jakoukoli jinou distribuci založenou na Debianu, jako je Linux Mint.

Předpoklady

Server s jedním z následujících operačních systémů:Ubuntu 20.04, 18.04, 16.04 a jakoukoli jinou distribucí založenou na Debianu, jako je Linux Mint.
Abyste předešli případným problémům, doporučujeme použít novou instalaci operačního systému.
non-root sudo user nebo přístup k root user . Doporučujeme jednat jako non-root sudo user , protože však můžete poškodit svůj systém, pokud nebudete při jednání jako root opatrní.

Nainstalujte Apache Spark na Ubuntu 20.04 LTS Focal Fossa

Krok 1. Nejprve se ujistěte, že všechny vaše systémové balíčky jsou aktuální, spuštěním následujícího apt příkazy v terminálu.

sudo apt update
sudo apt upgrade

Krok 2. Instalace Java.

Apache Spark vyžaduje ke spuštění Javu, ujistěte se, že máme Javu nainstalovanou v našem systému Ubuntu:

sudo apt install default-jdk

Zkontrolujeme verzi Java pomocí příkazového řádku níže:

java -version

Krok 3. Stáhněte a nainstalujte Apache Spark.

Stáhněte si nejnovější verzi Apache Spark ze stránky pro stahování:

wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz
tar xvzf spark-3.0.0-bin-hadoop2.7.tgz
sudo mv spark-3.0.0-bin-hadoop2.7/ /opt/spark

Další, konfigurace prostředí Apache Spark:

nano ~/.bashrc

Dále přidejte tyto řádky na konec souboru .bashrc, aby cesta mohla obsahovat cestu ke spustitelnému souboru Spark:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Aktivujte změny:

source ~/.bashrc

Krok 4. Spusťte samostatný server Spark Master.

Nyní, když jste dokončili konfiguraci prostředí pro Spark, můžete spustit hlavní server:

start-master.sh

Chcete-li zobrazit uživatelské rozhraní Spark Web, otevřete webový prohlížeč a zadejte adresu IP localhost na portu 8080:

http://127.0.0.1:8080/

V tomto samostatném nastavení s jedním serverem spustíme jeden podřízený server spolu s hlavním serverem. start-slave.sh příkaz se používá ke spuštění procesu Spark Worker:

start-slave.sh spark://ubuntu1:7077

Nyní, když je pracovník spuštěn, a pokud znovu načtete webové uživatelské rozhraní Spark Master, měli byste jej vidět v seznamu:

Poté dokončete konfiguraci a spusťte hlavní a podřízený server, otestujte, zda funguje shell Spark:

spark-shell

Blahopřejeme! Úspěšně jste nainstalovali Apache Spark. Děkujeme, že jste použili tento návod k instalaci Apache Spark na systém Ubuntu 20.04 (Focal Fossa). Pro další pomoc nebo užitečné informace vám doporučujeme navštívit oficiální Web Apache Spark.

Jak nainstalovat Apache OpenOffice na Ubuntu 20.04 LTS Jak nainstalovat Matomo na Ubuntu 20.04 LTS

Ubuntu