GNU/Linux >> Znalost Linux > >> Linux

Plánování kapacity Linuxu:5 věcí, které musíte udělat

Myslím, že spousta systémových administrátorů se plánování kapacit buď bojí, nebo si jen myslí, že je zbytečné. Za prvé, není důvod se obávat kapacitního plánování (není to žádná raketová věda); a za druhé, plánování kapacity je 100% nezbytné. V minulosti se správci systému museli vypořádat se správou a dělat rozsáhlá rozhodnutí, jak přidat kapacitu a zvýšit výkon, a to buď přidáním nových systémů do mixu, nebo přidáním CPU, RAM nebo rychlejšího úložiště. Obvykle, ale ne vždy, problém přetrvával i po upgradech a přidané kapacitě. Ale „obvykle“ kvalifikátor je součástí rovnice, která zarazí systémové administrátory i manažery – do té míry, že se nikdo nechce zabývat skutečným plánováním a správou kapacity a výkonu.

Tento problém nemusí být boj. V tomto článku uvádím pět věcí, které potřebujete vědět, abyste mohli začít s plánováním kapacity Linuxu. Tyto pokyny můžete také použít na jakékoli prostředí:Linux, Windows, Unix nebo jejich hybridní verzi.

Základy plánování kapacit

Když diskutujete o kapacitě, mluvíte skutečně o výkonu. Kapacita a výkon jsou vždy uvedeny společně. Chcete-li provést jakýkoli druh plánování kapacity, musíte měřit a monitorovat výkon. Kapacita znamená schopnost zpracovávat a ukládat data bez překážek nebo dopadů na koncového uživatele. Správci systému většinou myslí na výkon ve smyslu zpracování dat pro webové stránky, databáze nebo aplikace. Tím ale výkon nekončí. Myslete na výkon zálohování a obnovení. Zálohy vyžadují kompresi, deduplikaci, přenos z disku na disk nebo přenos přes síť. A nezapomeňte, přesun virtuálních strojů z jednoho hostitele na druhého vyžaduje výpočetní, úložnou a síťovou kapacitu.

Vaše zjištění je toto:Kapacita a výkon spolu příliš úzce souvisí, než aby je bylo možné oddělit do různých konverzací. Pojďme se podívat na kroky v tomto procesu.

Za prvé:Získejte základní linii

Nezáleží na tom, zda jsou vaše systémy zbrusu nové nebo tři roky staré, před zahájením plánování kapacity a projekce musíte vytvořit základní linii. Stanovení základní linie je poněkud časově náročné, protože základní linie není snímek, je to spíše dlouhodobější pohled na výkon. Pro každý systém použijte alespoň jednoměsíční základní linii. Měsíc dat by vám měl poskytnout rozsah výkonu, ze kterého můžete plánovat a předpovídat potřeby kapacity.

Po získání předběžného data musíte prozkoumat tři čísla:špičková, nízká a průměrná zátěž nebo využití. Po analýze těchto dat si uvědomíte, proč se nemůžete spoléhat na snímek zatížení, který vás provede procesem plánování kapacity. Základní linie vám říká, kde se v tomto procesu nacházíte.

Další soubor dat, který musíte vzít v úvahu, je aktuální kapacita. Musíte posoudit RAM, CPU, disk a kapacitu sítě. Poté musíte zjistit, jaká je vaše maximální kapacita pro každý systém. Rozdíl mezi aktuální a maximální kapacitou vám dává vaši růstovou kapacitu. Uvažujme například systém, který má následující konfiguraci:dva čtyřjádrové procesory, 128 GB RAM, dva 1TB disky v RAID 1 (zrcadlené) a jedno duální síťové rozhraní Gb Ethernet. Vaše maximální kapacita pro tento systém je tedy čtyři čtyřjádrové procesory, 512 GB RAM, šest disků a dva otevřené sloty PCIe pro rozšiřující karty, jako jsou karty síťového rozhraní Gb Ethernet (NIC).



CPU	2 – Čtyřjádro	4 – Čtyřjádro
RAM	128 GB	512 GB
Disk	2 disky – 1 TB – RAID 1	6 disků
NIC	2 GbE (duální)	6 GbE (Dual) – 10 GbE (Quad)

Nyní porovnejte oba. Tento systém má mnohem větší dostupnou kapacitu pro zvýšení výpočetního výkonu, sítě a úložiště. Tyto parametry hardwarové kapacity plus údaje o výkonu za měsíc jsou vašimi výchozími body při předpovídání potřeby další kapacity, ať už ve formě upgradů systému nebo úplné aktualizace technologie.

Za druhé:Nastavte sledování výkonu

Pokud ještě nemáte balíček pro sledování výkonu, jako je sysstat nainstalované, můžete to snadno provést z výchozích úložišť. Zkontrolujte, zda máte sysstat :

$ rpm -qa |grep sysstat

Pokud jej nemáte, nainstalujte jej pomocí:

$ sudo yum -y install sysstat

Provedením následujících dvou příkazů spusťte sysstat 's datové kolektory při spuštění a poté ke spuštění sysstat kolektory dat ve vašem systému:

$ sudo systemctl enable sysstat sysstat-collect.timer sysstat-summary.timer

$ sudo systemctl start sysstat sysstat-collect.timer sysstat-summary.timer

sysstat balíček se skládá z několika příkazů, které hlásí statistiky výkonu na různých podsystémech a službách od CIFS/Samba přes disk až po úlohy Linuxu. Nejužitečnější příkaz je sar , Reportér systémové aktivity. sar vám poskytuje běžící seznam statistik aktivity systému. Každý uživatel může vydat sar příkaz pro zobrazení statistik:

$ sar 
Linux 4.18.0-80.7.1.el8_0.x86_64 (rhel) 	08/14/2019 	_x86_64_	(1 CPU)

12:00:24 AM     CPU     %user     %nice   %system   %iowait    %steal     %idle
12:10:01 AM     all      0.22      0.00      0.43      0.01      0.00     99.33
12:20:32 AM     all      1.18      0.05      1.24      0.12      0.00     97.41
12:30:01 AM     all      0.27      0.00      0.49      0.01      0.00     99.23
12:40:32 AM     all      0.20      0.00      0.38      0.00      0.00     99.41
12:50:32 AM     all      0.18      0.00      0.36      0.01      0.00     99.46

Ve výchozím nastavení se systémové statistiky shromažďují každých 10 minut. sar zobrazí obecné systémové statistiky, ale mnohem užitečnější a rozsáhlejší statistika poskytuje vše sar může nabídnout pomocí -A možnost:

$ sar -A

Výstup je příliš dlouhý na to, aby jej bylo možné sem zveřejnit, ale uvědomte si, že uvidíte všechny statistiky pro každý podsystém a službu, které sar sbírá. Viz sar manuálová stránka pro další informace a podrobnosti o konkrétních statistikách a jejich možnostech.

Za třetí:Analýza a vykreslení dat

sysstat kolektor shromažďuje informace o systému a uchovává je pod /var/log/sa . Čísla souborů jsou dnem v měsíci, ve kterém byly shromážděny. Budete potřebovat nějakou metodu shromažďování a analýzy těchto dat. Doporučuji Orca Blaira Zajaca. Navrhuji také, abyste svá shromážděná data přenesla do centrálního úložiště ke zpracování a zobrazení. Jinými slovy, nezpracovávejte své statistiky ve svých produkčních systémech, protože to negativně ovlivní vaše statistiky výkonu a zkreslí vaše výsledky.

Orca je netriviální, ale není příliš obtížné nastavit. Před několika lety jsem napsal článek, který vám pomůže začít zobrazovat statistiky výkonu na webovém serveru s Orca. Orca nebyla nějakou dobu aktualizována, ale stále funguje tak, jak je uvedeno v dokumentaci a v mém článku.

Začtvrté:Nastavte prahové hodnoty výkonu

Pro každý váš produkční nebo monitorovaný systém musíte odpovědět na otázku:"How busy is busy?" Neexistuje žádná dokonalá odpověď a pravděpodobně čísla v určitém okamžiku upravíte, abyste snížili počet oznámení, která obdržíte z překročení těchto prahových hodnot. Řekněme například, že máte pět webových serverů, které mají vyváženou zátěž, aby poskytovaly webové služby vašim externím zákazníkům, a potřebujete monitorovat jejich výkon, abyste mohli předvídat, kdy přidat další systémy na farmu, nebo kdy můžete vzít jeden nebo více offline.

Jako předběžný test nastavíte práh CPU na 80 % vytížení pro všech pět serverů. Dvakrát denně obdržíte e-mailová upozornění, že vaše systémy překročily 80 %. Problém? Výstrahy obdržíte každých pět minut ze všech pěti serverů po dobu dvou hodin dvakrát denně. To znamená, že limity jsou nastaveny příliš nízko, pokud nechcete dostávat všechna tato oznámení.

Musíte se podívat na výkon během těchto špiček, abyste se rozhodli, kde nastavit práh, a zda je nebo není potřeba přidat další systémy do farmy, abyste snížili celkové využití. Po prozkoumání čísel si všimnete, že využití nikdy nepřekročí 87 % v žádné špičce na žádném serveru. Poté se rozhodnete nastavit práh CPU na 90 % a budete pokračovat v kontrole monitoru každých pět minut, ale snížíte práh výstrahy na trvalých 90 % po dobu delší než dvě hodiny. To znamená, že pokud využití CPU systému překročí 90 % po dobu delší než dvě hodiny, obdržíte upozornění. Tento práh pro toto prostředí je rozumný a zvládnutelný. Vaše úroveň tolerance pro přidávání nového systému na farmu je po několika měsících pozorování CPU nad 95 % po dobu delší než dvě hodiny.

Toto je proces určování zaneprázdněnosti a úrovně vaší tolerance pro každou službu. Zdá se to být libovolné, ale není tomu tak, protože data neustále pozorujete a na základě svých pozorování provádíte úpravy a rozhodnutí. 90% využití po dobu dvou hodin není přehnané, ale nechcete tuto úroveň překročit, protože pak uživatelé začnou trpět dlouhou dobou čekání při stahování dat z vašeho systému.

Za páté:Upozornění na výkon

Probíral jsem upozornění, ale ještě jsem vám nenašel řešení pro vytváření a zpracování událostí (upozornění). Pro kontrolu sar můžete vytvořit něco tak jednoduchého, jako je Bash skript data pro čísla využití, ale můžete nasadit i komerční řešení nebo i něco mezi. Nebudu vám doporučovat řešení upozorňování, ale k dispozici je několik aplikací pro monitorování a upozornění s otevřeným zdrojovým kódem. Většina z nich je založena na agentech, takže do svého seznamu povinností správy přidejte instalaci a údržbu další služby.

Jak bylo uvedeno v předchozí části, budete muset upravit své prahové hodnoty a tolerance, abyste se výstrahami nezbláznili, zvláště pokud tato upozornění přicházejí jako textové zprávy do vašeho telefonu (telefonů). Chcete být upozorněni pouze v případě, že je něco nefunkční nebo v problémech a vyžaduje vaši pozornost k vyřešení.

Dilema plánování kapacity

Dilema plánování kapacity a monitorování výkonu v dnešní době spočívá v tom, že místo nákupu několika racků serverů si pravděpodobně buď pronajímáte serverový hardware, nebo používáte nějaké cloudové řešení, kde se kapacita a výkon dynamicky řídí obchodními pravidly. . Tříleté pronájmy hardwaru vyžadují, abyste každé tři roky procházeli aktualizací hardwaru, ať už potřebujete nebo ne. Typ hardwarové politiky, kterou máte ve vaší společnosti, jistě mění způsob, jakým plánujete změny kapacity.

Pokud si pronajmete, budete stále muset provádět sledování výkonu a přemýšlet o kapacitě, protože pokud máte poddimenzovaný nebo nedostatečně nakoupený hardware, budete to určitě potřebovat vědět. Pokud nakupujete, měli byste se podívat na plánování výkonu a kapacity na pětiletém průběžném základě. Říkám pět let, protože manažeři a majitelé firem nechtějí měnit hardware každé tři roky, pokud jej kupují. Je pravděpodobné, že nákup hardwaru používají jako amortizované aktivum.

Trik s nakoupenými aktivy je v tom, že nechcete plýtvat kapacitou tím, že budete nakupovat příliš brzy. Koluje mnoho příběhů o lidech, kteří si kupují špičkové systémy jen proto, aby je za pět let obnovili, aniž by kdy využili kapacitu těchto systémů, a po pěti letech jsou příliš staré na to, aby se obtěžovali aktualizacemi a upgrady. Základem pro pořízení nového pronajatého nebo zakoupeného hardwaru je nákup s ohledem na růst a poté využít tohoto růstu prostřednictvím rozpočtu na upgrady podle využití. Jinými slovy, kupte si, co potřebujete, upgradujte podle potřeby a plně využijte své hardwarové prostředky před dalším obnovovacím cyklem.

Shrnutí

Plánování kapacity a monitorování výkonu spolupracují, aby vám poskytly úplný obraz o životním cyklu vašeho hardwaru a softwaru. Je důležité věnovat čas a úsilí nastavení monitorování a upozornění a analýze dat. Zaneprázdnění správci systému příliš často nastavují propracovaná řešení pro monitorování a pak je ignorují. Najděte způsob, jak najít rovnováhu mezi tím, že vás zblázní upozornění na výkon, a nikdy neuvidíte to, které vede k delším prostojům. Kapacitní plánování vám také pomáhá ušetřit peníze přerozdělením služeb z přetížených systémů na nevyužité.

Co potřebujete vědět o IPv6 Analýza výkonu linuxového serveru s atop

Linux