Jak nainstalovat Apache Spark na Windows 10

Úvod

Apache Spark je open-source framework, který zpracovává velké objemy streamovaných dat z více zdrojů. Spark se používá v distribuovaných výpočtech s aplikacemi strojového učení, analýzou dat a grafově paralelním zpracováním.

Tato příručka vám ukáže, jak nainstalovat Apache Spark na Windows 10 a otestujte instalaci.

Předpoklady

Systém se systémem Windows 10
Uživatelský účet s oprávněními správce (vyžadovaný k instalaci softwaru, úpravě oprávnění k souborům a úpravě systémové PATH)
Příkazový řádek nebo Powershell
Nástroj pro extrahování souborů .tar, jako je 7-Zip

Nainstalujte Apache Spark na Windows

Instalace Apache Spark na Windows 10 se může začínajícím uživatelům zdát složitá, ale tento jednoduchý návod vám pomůže. Pokud již máte nainstalované Java 8 a Python 3, můžete přeskočit první dva kroky.

Krok 1:Nainstalujte Java 8

Apache Spark vyžaduje Java 8. Můžete zkontrolovat, zda je Java nainstalována pomocí příkazového řádku.

Otevřete příkazový řádek kliknutím na Start> zadejte cmd> klikněte na Příkazový řádek .

Do příkazového řádku zadejte následující příkaz:

java -version

Pokud je Java nainstalována, odpoví následujícím výstupem:

Vaše verze se může lišit. Druhá číslice je verze Java – v tomto případě Java 8.

Pokud nemáte nainstalovanou Javu:

1. Otevřete okno prohlížeče a přejděte na https://java.com/en/download/.

2. Klikněte na Stažení Java a uložte soubor do vámi zvoleného umístění.

3. Po dokončení stahování dvakrát klikněte na soubor a nainstalujte Java.

Krok 2:Nainstalujte Python

1. Chcete-li nainstalovat správce balíčků Python, přejděte ve webovém prohlížeči na https://www.python.org/.

2. Najeďte myší na Stáhnout a klikněte na Python 3.8.3 . 3.8.3 je nejnovější verze v době psaní článku.

3. Po dokončení stahování spusťte soubor.

4. V dolní části prvního dialogového okna nastavení zaškrtněte možnost Přidat Python 3.8 do PATH . Nechte druhé políčko zaškrtnuté.

5. Dále klikněte na Přizpůsobit instalaci .

6. V tomto kroku můžete nechat zaškrtnutá všechna políčka, nebo můžete zrušit zaškrtnutí možností, které nechcete.

7. Klikněte na Další .

8. Zaškrtněte políčko Instalovat pro všechny uživatele a ostatní boxy ponechte tak, jak jsou.

9. V části Přizpůsobit umístění instalace klikněte na Procházet a přejděte na jednotku C. Přidejte novou složku a pojmenujte ji Python .

10. Vyberte tuto složku a klikněte na OK .

11. Klikněte na Instalovat a nechte instalaci dokončit.

12. Po dokončení instalace klikněte na Zakázat limit délky cesty v dolní části a poté klikněte na Zavřít .

13. Pokud máte otevřený příkazový řádek, restartujte jej. Ověřte instalaci kontrolou verze Pythonu:

python --version

Výstup by měl vytisknout Python 3.8.3 .

Krok 3:Stáhněte si Apache Spark

1. Otevřete prohlížeč a přejděte na https://spark.apache.org/downloads.html.

2. V části Stáhnout Apache Spark jsou zde dvě rozbalovací nabídky. Použijte aktuální verzi bez náhledu.

V našem případě v části Vyberte verzi Spark z rozbalovací nabídky vyberte 2.4.5 (5. února 2020) .
Ve druhém rozbalovacím seznamu Vyberte typ balíčku , ponechte výběr Pre-built for Apache Hadoop 2.7 .

3. Klikněte na spark-2.4.5-bin-hadoop2.7.tgz odkaz.

4. Načte se stránka se seznamem zrcadel, kde můžete vidět různé servery ke stažení. Vyberte libovolný ze seznamu a uložte soubor do složky Stažené soubory.

Krok 4:Ověřte soubor softwaru Spark

1. Ověřte integritu stahování kontrolou kontrolního součtu souboru. To zajišťuje, že pracujete s nezměněným, nepoškozeným softwarem.

2. Přejděte zpět na Spark Download a otevřete Kontrolní součet odkaz, nejlépe na nové kartě.

3. Dále otevřete příkazový řádek a zadejte následující příkaz:

certutil -hashfile c:\users\username\Downloads\spark-2.4.5-bin-hadoop2.7.tgz SHA512

4. Změňte uživatelské jméno na své uživatelské jméno. Systém zobrazí dlouhý alfanumerický kód spolu se zprávou Certutil: -hashfile completed successfully .

5. Porovnejte kód s kódem, který jste otevřeli na nové kartě prohlížeče. Pokud se shodují, váš stažený soubor není poškozen.

Krok 5:Nainstalujte Apache Spark

Instalace Apache Spark zahrnuje rozbalení staženého souboru na požadované místo.

1. Vytvořte novou složku s názvem Spark v kořenovém adresáři vašeho disku C:. Z příkazového řádku zadejte následující:

cd \

mkdir Spark

2. V Průzkumníku vyhledejte soubor Spark, který jste stáhli.

3. Klepněte pravým tlačítkem na soubor a rozbalte jej do C:\Spark pomocí nástroje, který máte ve svém systému (např. 7-Zip).

4. Nyní vaše C:\Spark složka má novou složku spark-2.4.5-bin-hadoop2.7 s potřebnými soubory uvnitř.

Krok 6:Přidejte soubor winutils.exe

Stáhněte si winutils.exe soubor pro základní verzi Hadoop pro instalaci Spark, kterou jste si stáhli.

1. Přejděte na tuto adresu URL https://github.com/cdarlint/winutils a do přihrádky složku, vyhledejte winutils.exe a klikněte na něj.

2. Najděte Stáhnout tlačítko na pravé straně pro stažení souboru.

3. Nyní vytvořte nové složky Hadoop a přihrádka na C:pomocí Průzkumníka Windows nebo příkazového řádku.

4. Zkopírujte soubor winutils.exe ze složky Stažené soubory do C:\hadoop\bin .

Krok 7:Konfigurace proměnných prostředí

Konfigurace proměnných prostředí ve Windows přidá umístění Spark a Hadoop do vaší systémové PATH. Umožňuje vám spouštět prostředí Spark přímo z okna příkazového řádku.

1. Klikněte na Start a zadejte prostředí .

2. Vyberte výsledek označený Upravit systémové proměnné prostředí .

3. Zobrazí se dialogové okno Vlastnosti systému. V pravém dolním rohu klikněte na Proměnné prostředí a poté klikněte na Nový v dalším okně.

4. Pro Název proměnné zadejte SPARK_HOME .

5. Pro Hodnotu proměnné zadejte C:\Spark\spark-2.4.5-bin-hadoop2.7 a klepněte na OK. Pokud jste změnili cestu ke složce, použijte místo ní tuto.

6. V horním poli klikněte na Cesta záznam a poté klikněte na Upravit . Buďte opatrní při úpravě systémové cesty. Neodstraňujte žádné položky, které jsou již v seznamu.

7. Vlevo by se mělo zobrazit pole se záznamy. Vpravo klikněte na Nový .

8. Systém zvýrazní nový řádek. Zadejte cestu ke složce Spark C:\Spark\spark-2.4.5-bin-hadoop2.7\bin . Doporučujeme používat %SPARK_HOME%\bin abyste se vyhnuli možným problémům s cestou.

9. Opakujte tento proces pro Hadoop a Java.

Pro Hadoop je název proměnné HADOOP_HOME a pro hodnotu použijte cestu ke složce, kterou jste vytvořili dříve:C:\hadoop. Přidejte C:\hadoop\bin do proměnné cesty pole, ale doporučujeme použít %HADOOP_HOME%\bin .
Pro jazyk Java je název proměnné JAVA_HOME a pro hodnotu použijte cestu k vašemu adresáři Java JDK (v našem případě je to C:\Program Files\Java\jdk1.8.0_251 ).

10. Klikněte na OK zavřete všechna otevřená okna.

Krok 8:Spusťte Spark

1. Otevřete nové okno příkazového řádku kliknutím pravým tlačítkem myši a vyberte možnost Spustit jako správce :

2. Chcete-li spustit Spark, zadejte:

C:\Spark\spark-2.4.5-bin-hadoop2.7\bin\spark-shell

Pokud nastavíte cestu prostředí správně, můžete zadat spark-shell ke spuštění Sparku.

3. Systém by měl zobrazit několik řádků indikujících stav aplikace. Můžete získat vyskakovací okno Java. Vyberte možnost Povolit přístup pokračovat.

Nakonec se objeví logo Spark a výzva zobrazí Scala shell .

4. Otevřete webový prohlížeč a přejděte na http://localhost:4040/ .

5. Můžete nahradit localhost s názvem vašeho systému.

6. Měli byste vidět webové uživatelské rozhraní prostředí Apache Spark. Níže uvedený příklad ukazuje exekutory stránku.

7. Chcete-li ukončit Spark a zavřít prostředí Scala, stiskněte ctrl-d v okně příkazového řádku.

Test Spark

V tomto příkladu spustíme Spark shell a použijeme Scala ke čtení obsahu souboru. Můžete použít existující soubor, například README soubor v adresáři Spark, nebo si můžete vytvořit svůj vlastní. Vytvořili jsme pnaptest s nějakým textem.

1. Otevřete okno příkazového řádku a přejděte do složky se souborem, který chcete použít, a spusťte prostředí Spark.

2. Nejprve zadejte proměnnou, kterou chcete použít v kontextu Spark, s názvem souboru. Nezapomeňte přidat příponu souboru, pokud existuje.

val x =sc.textFile("pnaptest")

3. Výstup ukazuje, že je vytvořen RDD. Potom můžeme zobrazit obsah souboru pomocí tohoto příkazu k vyvolání akce:

x.take(11).foreach(println)

Tento příkaz dá Sparku pokyn, aby vytiskl 11 řádků ze souboru, který jste zadali. Chcete-li provést akci s tímto souborem (hodnota x ), přidejte další hodnotu y a proveďte transformaci mapy.

4. Můžete například vytisknout znaky obráceně pomocí tohoto příkazu:

val y = x.map(_.reverse)

5. Systém vytvoří podřízený RDD ve vztahu k prvnímu. Poté určete, kolik řádků chcete vytisknout z hodnoty y :

y.take(11).foreach(println)

Výstup vytiskne 11 řádků pnaptestu soubor v opačném pořadí.

Po dokončení ukončete shell pomocí ctrl-d .

Jak nainstalovat a nakonfigurovat MySQL na Windows Server Jak vytvářet, přetahovat, měnit a zkracovat tabulky v Cassandře

Cent OS