Pokud hledáte platformu pro analýzu dat v reálném čase, Jack Wallen si myslí, že Apache Druid je těžké porazit. Zjistěte, jak zprovoznit tento nástroj a jak poté načíst ukázková data.
Apache Druid je analytická databáze v reálném čase, která byla navržena pro rychlé podsvícení analýzy řezů a kostek na masivních sadách dat. Apache Druid můžete snadno spustit z desktopové verze Linuxu – nebo linuxového serveru s GUI – a poté načíst data a začít analyzovat.
Apache Druid obsahuje funkce jako:
- Sloupcově orientované úložiště
 - Indexy nativního vyhledávání
 - Streamování a dávkové zpracování
 - Flexibilní schémata
 - Časově optimalizované rozdělení
 - Podpora SQL
 - Horizontální škálovatelnost
 - Snadná obsluha
 
Apache Druid je skvělá volba pro případy použití, které vyžadují příjem v reálném čase, rychlé dotazy a vysokou dobu provozu.
Provedu vás procesem spuštění Apache Druid na Pop!_OS Linux (ačkoli jej lze spustit na jakékoli distribuci Linuxu) a poté vám ukážu, jak načíst ukázková data.
Co budete potřebovat
Jediné, co budete k tomu potřebovat, je spuštěná instance Linuxu s desktopovým prostředím a uživatelem s právy sudo.
A je to. Pojďme udělat nějaké kouzlo databáze.
Jak nainstalovat Java 8
V tuto chvíli Apache Druid podporuje pouze Java 8, takže se musíme ujistit, že je nainstalován a nastaven jako výchozí. Chcete-li nainstalovat Java 8 na desktopovou distribuci založenou na Ubuntu, přihlaste se do počítače, otevřete okno terminálu a zadejte příkaz:
 sudo apt install openjdk-8-jdk -y 
Po dokončení instalace je třeba nastavit Java 8 jako výchozí. Proveďte to příkazem:
 sudo update-alternatives --config java 
Měli byste vidět seznam všech verzí Java, které jsou aktuálně nainstalovány v počítači. Ujistěte se, že jste vybrali číslo, které odpovídá Java 8.
Něco o službách Apache Druid
To, co spustíme, je mikro instance Apache Druid, která vyžaduje 4 CPU a 16 GB RAM. Existuje 6 různých konfigurací služeb pro Apache Druid, které jsou:
- Nano-Quickstart:1 CPU, 4 GB RAM
 - Micro-Quickstart:4 CPU, 16 GB RAM
 - Malý:8 CPU, 64 GB RAM
 - Střední:16 CPU, 128 GB RAM
 - Velká:32 CPU, 256 GB RAM
 - X-Large:64 CPU, 512 GB RAM
 
V závislosti na velikosti vašich dat a potřebách. Když se dostanete do velkého množství dat, doporučuje se, aby byl Apache Druid nasazen jako cluster. Protože se však s Apache Druid teprve seznamujeme, mikro instance bude v pořádku.
Pokrytí pro vývojáře, které si musíte přečíst
Jak stáhnout a rozbalit Apache Druid
S nainstalovanou Javou je čas stáhnout a rozbalit Apache Druid. Zpět v okně terminálu stáhněte nejnovější verzi (nezapomeňte se podívat na stránku stahování Apache Druid, abyste si ověřili, že se jedná o nejnovější verzi) pomocí příkazu:
 wget https://dlcdn.apache.org/druid/0.22.1/apache-druid-0.22.1-bin.tar.gz 
Rozbalte stažený soubor pomocí:
 tar xvfz apache-druid-0.22.1-bin.tar.gz 
Přejděte do nově vytvořeného adresáře pomocí:
 cd apache-druid-0.22.1 
Spusťte službu pomocí:
 ./bin/start-micro-quickstart 
Služba Apache Druid by se měla spustit bez problému. Pamatujte, že během běhu služby nedostanete svůj terminál zpět, dokud ji nezrušíte pomocí CTRL + C.
Jak získat přístup ke konzoli Apache Druid
 Na stejném počítači, na kterém běží Apache Druid, otevřete webový prohlížeč a přejděte na http://localhost:8888 . Bohužel Apache Druid je nastaven tak, že se k němu ze vzdáleného počítače nedostanete, a proto jej instalujeme na stolní počítač.
Přivítá vás konzole Apache Druid (Obrázek A ).
Obrázek A
 Jak načíst data
Načteme předdefinovaný vzorek dat, který najdete v adresáři quickstart/tutorial/. Ukázka se jmenuje wikiticker-2015-09-12-sampled.json.gz.
 Obrázek B
 
 Klikněte na Připojit data (na pravé straně okna) a poté na výsledném postranním panelu (Obrázek C ), zadejte quickstart/tutorial jako základní adresář a wikiticker-2015-09-12-sampled.json.gz v sekci Filtr souborů.
Obrázek C
 Klikněte na Použít a v hlavním okně byste měli vidět poměrně velké množství dat (Obrázek D ).
Obrázek D
 Klikněte na Další:Analýza dat vpravo dole a zobrazí se vám seznam dat ve srozumitelnějším formátu (Obrázek E ).
Obrázek E
 Klikněte na Další:Analyzovat čas a můžete zobrazit data s konkrétními časovými razítky (Obrázek F ).
Obrázek F
 Klikněte na Další:Transformace a poté můžete provádět transformace hodnot sloupců po řádcích a buď vytvořit nové sloupce, nebo upravit ty, které již existují.
Pokračujte v procházení dat a kdykoli můžete spouštět dotazy a filtrovat data podle potřeby. V části Konfigurace schématu (Obrázek G ), můžete dokonce určit podrobnost svých dotazů a přidat dimenze a metriky.
Obrázek G
 A to jsou skoro základy Apache Druida. I když jsme jen zběžně prozkoumali, co tato výkonná platforma pro analýzu dat dokáže, měli byste být schopni získat docela dobrý přehled o tom, jak funguje, když si pohrajete s ukázkovými daty.
Po dokončení práce se vraťte do okna terminálu a zastavte službu Apache Druid pomocí CTRL + C.