GNU/Linux >> Znalost Linux >  >> Linux

Výzva a příslib velkých dat

S růstem internetu roste i množství dat a rozsah, v jakém jsou data oceňována – především vládou a veřejně obchodovanými společnostmi, i když i malé firmy oceňují statistiky, které shromažďují z Google Analytics a podobných služeb. Hromadění a prověřování údajů je považováno za mimořádně účinný způsob, jak dodávat lepší produkty; pochopit, jak lidé používají webové stránky a aplikace; sledovat výkon zaměstnanců; určit nejúčinnější marketingový jazyk; a další.

Podle projekcí zveřejněných International Data Corporation si trh s velkými daty udrží CAGR ve výši 26 % do roku 2018, kdy tržby za velké datové služby dosáhnou 42 miliard USD.

Hodnota trhu nám říká, že podniky investují velké sumy peněz do společností, které se specializují na shromažďování, porozumění a integraci rozsáhlých souborů dat – jinými slovy do služeb, které mohou informace přeměnit na lepší výsledky.

Jak velké zaměření jsou velká data? No, lidé z vesmírných lodí jsou ve hře.

Chris Mattman z NASA o výzkumu svého zaměstnavatele v této oblasti říká:„NASA celkem pravděpodobně spravuje několik set petabajtů, což se blíží exabajtu.“

Forbes přispěvatel Joshua Steimle poznamenává, že exabajt je mimořádně velké množství informací, 1 miliarda gigabajtů.

Zaplavit se mořem čísel?

S technologií, kterou máme nyní k dispozici, mohou data v podnicích narůstat tak rychle, že to pro tradiční databáze představuje přetížení – jak z hlediska jejich uchování, tak z hlediska toho, že by z nich měl nějaký smysl. Společnosti nemusí stavět rakety, aby se cítily poněkud ohromeny obrovským množstvím dat na dosah ruky, tvrdí Steimle .

Chris Riquier, asijsko-pacifický šéf Taylor Nelson Sofres, říká, že viděl dopad v jiné oblasti:„Průzkum trhu byl založen na průzkumech a průzkumech.“ Nyní se to místo toho děje v reálném čase s informacemi, které přicházejí ze sociálních médií, vyhledávačů a mnoha dalších zdrojů. Díky zaměření technologů na datovou vědu a neustálému zdokonalování analytiky Riquier věří, že naše „schopnost reagovat na trh a přijímat rozhodnutí se drasticky změnila.“

Hledání smysluplných vzorců v rámci velkých dat bylo pro mnoho firem záhadou. Datoví inženýři však budují systémy tak silné, že trend směřující k co nejrychlejšímu shromažďování a zpracování dat je podle časopisu Harvard Magazine z roku 2014 téměř nevyhnutelný. zpráva. Článek navrhl, že inovativní vzorce „velkého algoritmu“ umožní firmám těžit z propojování a integrace datových úložišť a také z převodu čísel na robustnější a uživatelsky přívětivější zobrazování.

Technologové a kulturní odborníci, kteří čerpají z dlouhodobě zavedených výzkumných technik z oblasti fyziky a astronomie, přinášejí své různé pohledy na toto téma ke vzájemnému prospěchu.

Autoři velkých dat Viktor Mayer-Schonberger a Kenneth Cukier poznamenávají, že datová analytika není jen o individuálních volbách, ale o úplné změně způsobu, jakým podniky přijímají rozhodnutí ve velkém obrazu – koneckonců, prediktivní analytika má dostát svému jménu. těm, kteří ji používají, logicky založenou, vševidoucí křišťálovou kouli.

Úspěchy velkých dat zahrnují:

Google – Google předpokládal, že určité hledané výrazy jsou pravděpodobně indikátory toho, že lidé začínají mít příznaky podobné chřipce. Použitím jejich odhadů na vyhledávání v reálném čase byla společnost schopna zjistit, kde se chřipka šíří rychleji než CDC.

Kanadská banka – Kanadská banka za hranicemi „používá Hadoop, open source softwarový rámec vytvořený společností Apache,“ Steimle vysvětluje:„zavést program, který umožní identifikaci praní špinavých peněz a podvodů.“

Data a každodenní život

NASA a Google jsou významnými příklady zaměření na velká data, ale jejich potenciál je mnohem širší a vztahuje se na všechny podniky, které chtějí upoutat pozornost online. Je to palivo, které pohání optimalizaci pro vyhledávače a optimalizaci sociálních sítí. Podnikatelé mohou využít Nástroje pro webmastery Google v kombinaci s analytickými daty ze sociálního softwaru k vytvoření úspěšnější online prezentace.

Joe Hall, který pomáhá klientům zlepšit jejich přítomnost na internetu prostřednictvím své společnosti Hall Analysis, poznamenává, že existují dva různé základní způsoby, jak lze data analyzovat za účelem zlepšení výsledků vyhledávačů:

  1. Zkoumání vzorců v rámci objemných dat, která přímo souvisí s konkrétním podnikáním.

Jeden z Hallových klientů měl více než 15 milionů zpětných odkazů – což znamená, že mnoho a mnoho webových stránek posílalo svůj provoz jeho klientovi.

Na této úrovni mění pravidla pro analýzu zpětných odkazů,“ komentuje Hall. Určení vzorů v datech je podstatně složitější.

  1. Získání propracovanějšího porozumění aktuální pozici svého podnikání a dynamice na trhu jako celku.

Pohled na vztah mezi různými proměnnými prostřednictvím analytického softwaru umožňuje podnikům lépe porozumět tomu, jak se umisťovat na předních místech a jak přimět více lidí, aby reagovali na výpis, když se objeví ve vyhledávači. Dva relevantní studijní obory jsou korelační analýza a analýzu chování uživatelů , říká Hall.

Oživení vašich velkých datových strojů

Jednou technologií, která byla pro datové vědce a společnosti využívající jejich služby zásadní, je prémiový cloud computing. Koneckonců, řešení hostingu VPS na klíč jsou založena na optimalizaci rychlosti, spolehlivosti a efektivity prostřednictvím virtualizované distribuce zdrojů.

Počítačový vědec Geoffrey Fox z Indiana University dokonce poznamenal, že cloud je často rychlejší než superpočítač.


Linux
  1. Inodes a souborový systém Linux

  2. Výsledek Ls *, Ls ** a Ls ***?

  3. Jaký je rozdíl mezi Sudo Su – a Sudo Su –?

  1. Honeypot Tutoriály – režimy a fungování Honeypot

  2. Jak mohu nechat tcpdump zapisovat do souboru a standardní výstup příslušných dat?

  3. Lomítka a příkaz rsync

  1. Rozdíl mezi [[ $a ==Z* ]] a [ $a ==Z* ]?

  2. Jak zkontrolovat, zda je potrubí prázdné, a spustit příkaz na datech, pokud není?

  3. Rozdíl mezi Nss a Pam?