GNU/Linux >> Znalost Linux >  >> Linux

Jak importovat data do Apache Solr

Nedávno jsem vás provedl procesem nasazení podnikové vyhledávací platformy Apache Solr. S tímto nástrojem můžete odebírat obrovské množství dat a spouštět proti nim výkonné vyhledávací dotazy se zvýrazňováním zásahů, indexováním v reálném čase, dynamickým shlukováním a dalšími.

Jakmile nasadíte Apache Solr, budete muset mít možnost přidat svá data do kolekce, aby je bylo možné prohledávat. Zde importujeme CSV seznam dat (který může mít libovolnou velikost) do nové kolekce a poté na nová data spustíme dotaz.

Co budete potřebovat

Chcete-li to provést, budete potřebovat spuštěnou instanci Apache Solr (s přihlašovacími údaji uživatele Solr) a datový soubor CSV. Vytvořím vzorový datový soubor CSV, který můžete použít jako šablonu.

Jak vytvořit soubor CSV pro import

První věc, kterou musíte udělat, je přihlásit se na server hostující Apache Solr, buď přes SSH nebo místní přihlášení. Po přihlášení vytvořte nový soubor příkazem:

nano ~/solrdata.csv

Tento soubor můžete pojmenovat, jak chcete, a umístit jej do libovolného adresáře. Vytvořte horní řádek, který bude obsahovat názvy jednotlivých sloupců:Ukážu to pomocí souboru CSV definujícího země. Horní řádek bude definovat několik položek (jako je kód země, region a subregion) a vypadá takto:

Otevřený zdroj:Pokrytí, které si musíte přečíst

name,alpha-2,alpha-3,country-code,iso_3166-2,region,sub-region,intermediate-region,region-code,sub-region-code,intermediate-region-code

Zbytek souboru obsahuje položky jako je tento:

Afghanistan,AF,AFG,004,ISO 3166-2:AF,Asia,Southern Asia,"",142,034,""

Åland Islands,AX,ALA,248,ISO 3166-2:AX,Europe,Northern Europe,"",150,154,""

Albania,AL,ALB,008,ISO 3166-2:AL,Europe,Southern Europe,"",150,039,""

Algeria,DZ,DZA,012,ISO 3166-2:DZ,Africa,Northern Africa,"",002,015,""

American Samoa,AS,ASM,016,ISO 3166-2:AS,Oceania,Polynesia,"",009,061,""

Andorra,AD,AND,020,ISO 3166-2:AD,Europe,Southern Europe,"",150,039,""

Angola,AO,AGO,024,ISO 3166-2:AO,Africa,Sub-Saharan Africa,Middle Africa,002,202,017

Celý ukázkový soubor country.csv si můžete stáhnout příkazem:

wget https://cdn.wsform.com/wp-content/uploads/2018/09/country.csv

Uložte tento soubor na místní disk hostitelského počítače Apache Solr.

Jak vytvořit novou kolekci

Nyní vytvoříme novou sbírku pro data o naší zemi. Tuto kolekci nazveme „country_data“ a vytvoříme ji příkazem:

su - solr -c "/opt/solr/bin/solr create -c country_data -n data_driven_schema_configs"

Budete vyzváni k zadání uživatelského hesla Solr. Po úspěšném ověření bude sbírka vytvořena a můžete pokračovat.

Jak importovat data

Přejděte do adresáře Solr pomocí příkazu:

cd /opt/solr

Data pak můžeme importovat příkazem:

./bin/post -c country_data /path/to/country.csv

Kde /path/to je přesná cesta k adresáři s nově staženým souborem country.csv.

Měli byste vidět výstup podobný tomuto:

Posting files to [base] url http://localhost:8983/solr/country_data/update...

Entering auto mode. File endings considered are xml,json,jsonl,csv,pdf,doc,docx,ppt,pptx,xls,xlsx,odt,odp,ods,ott,otp,ots,rtf,htm,html,txt,log

POSTing file country.csv (text/csv) to [base]

1 files indexed.

COMMITting Solr index changes to http://localhost:8983/solr/country_data/update...

Time spent: 0:00:02.674

Jak zobrazit nová data

Přihlaste se do webového rozhraní Apache Solr nasměrováním prohlížeče na http://SERVER:8983 (kde SERVER je IP adresa hostitelského serveru). Z rozbalovací nabídky newdata v levém navigačním panelu vyberte country_data. Ve výsledném okně (Obrázek A ), klikněte na Dotaz.

Obrázek A

Ve výsledném okně klikněte na Provést dotaz, aniž byste cokoli změnili, a zobrazí se celý importovaný dokument (Obrázek B ).

Obrázek B

Řekněme, že chcete hledat Irsko. Do části q (pod společným) zadejte „Irsko“ a stiskněte Provést dotaz. Ve výsledku bude uveden pouze záznam pro, uhodli jste, Irsko (Obrázek C ).

Obrázek C

Ještě jednodušší způsob importu dat CSV

Existuje ještě jednodušší způsob, jak importovat data CSV do Apache Solr.

Řekněme, že jste vytvořili novou kolekci s názvem datacollection a chcete importovat soubor country.csv z webového rozhraní. Přihlaste se do Apache Solr, z rozevíracího seznamu vyberte datacollection a poté klikněte na Dokumenty v levém navigačním panelu. Ve výsledném okně vyberte CSV z rozevíracího seznamu Typ dokumentu a poté zkopírujte/vložte celý obsah souboru country.csv do části Dokumenty (Obrázek D ).

Obrázek D

Klikněte na Odeslat dokument a nakonec byste měli vidět (v pravém podokně) následující výstup:

Status: success

Response:

{

"responseHeader": {

"status": 0,

"QTime": 3533

}

}

Nyní byste měli být schopni dotazovat se na svá importovaná data stejným způsobem jako dříve.

A to je vše k importu dat ve formátu CSV do Apache Solr. Jedná se o velmi výkonný nástroj, který velmi zjednodušuje vyhledávání v rozsáhlých sbírkách dat. Pokud vaše firma spoléhá na data, může to být jeden z mnoha nástrojů, které potřebujete.


Linux
  1. Jak nainstalovat Apache Solr na CentOS 8

  2. Jak nainstalovat Apache Solr na Ubuntu 14.04

  3. Jak importovat e-mailové účty pomocí souboru CSV nebo Excel

  1. Jak nainstalovat Apache Solr na AlmaLinux 8

  2. Jak analyzovat soubor CSV v Bash?

  3. Jak rm funguje? Co dělá rm?

  1. Jak nainstalovat Apache Solr na Debian 10

  2. Jak nainstalovat Apache Solr na Debian 11

  3. Jak nainstalovat Apache Solr na CentOS 7