Portál AbcLinuxu, 13. prosinec 2017 19:53

Storage Area Network – 2 (stavební bloky)

3. 8. 2010 | Marek Stopka
Články - Storage Area Network – 2 (stavební bloky)  

V druhém díle seriálu o Storage Area Networks se podíváme zblízka na jednotlivé stavební bloky sítí typu SAN. Disková pole (RAID), disková cache (NVRAM), páskové mechaniky a páskové knihovny (jukeboxy). Protokoly.

Obsah

Ukládání dat

link

Základním prvkem každé SAN je vrstva, která obstarává samotné ukládání dat. Může se jednat o ukládání tzv. „živých dat“, která budou uložena přímo na diskovém poli pro okamžitý přístup, nebo o ukládání dat pro zálohu, která mohou být uložena opět na diskovém poli (zálohování typu disk-to-disk) nebo na páskách (v páskové knihovně – jukeboxu nebo na samostatných ručně vyměňovaných páskách), v tomto případě se používají páskové mechaniky.

Disková pole

link

Disková pole jsou zařízení, která obsahují samotné točící se disky. Nabízí se v různých velikostech, poskytují různé vlastnosti a dělí se do 3 základních kategorií a dvou základních druhů. Z pohledu kategorií se jedná o low-end, mid-range a high-end. Tyto tři kategorie oddělují pole podle ceny a vlastností, které nabízejí, stejně jako maximální připojitelné kapacity. Z pohledu druhů se pole dělí na monolitická a modulární. Všechny však mají jednu věc společnou – používají RAID (Redundant Array of Independent Disks nebo Redundant Array of Inexpensive Disks [wikipedia]) pro zvýšení rychlosti přístupu k datům, ke zvýšení kapacity a ke zvýšení datové bezpečnosti.

RAID (Redundant Array of Independent Disks)

link

RAID je technologie, která seskupuje více (malých) jednotlivých disků a tvoří abstrakční vrstvu, na jejímž konci stojí disk větší, nebo alespoň odolnější proti výpadku. Ve většině nasazení v diskových polích se jedná o disk větší a odolnější proti výpadku. Tyto disky tvoří LUN (Logical Unit Number) a jsou připojeny k samotnému serveru.

RAID zvyšuje výkonnost, protože jsou data uložena na více discích, ke kterým se dá přistupovat paralelně, a datovou bezpečnost, protože si může ukládat tzv. paritní informace, které se dají použít k obnovení dat, pokud některý z disků selže. Nejčastěji používané konfigurace RAID jsou RAID 0, RAID 1, RAID 5 a RAID 6.

Existuje spousta dalších RAID konfigurací, jak standardních, tak nestandardních (RAID-DP, RAID-Z), které řeší některé z problémů standardních RAID konfigurací. RAID-Z se snaží řešit tzv. write hole problém. RAID-DP se snaží snížit dopad na výkon u RAID 6 konfigurace (ten může být až 30 %) [wikipedia].

V diskových polích a řadičích bývá RAID doplněn o další prvky, kterými je RAM a NVRAM. NVRAM je většinou baterií zálohovaná RAM, která slouží k výkonnostní optimalizaci zápisů do RAID konfigurace – poskytuje cache pro zápis, RAM pak slouží k optimalizování čtecích operací – poskytuje cache pro čtení.

Modulární a monolitická disková pole

link
san ibm ds8000 monolitic array
Monolitické diskové
pole IBM DS8700

Základní vlastnost, podle které můžeme dělit disková pole, je, jestli se jedná o pole monolitické, nebo modulární. V případě monolitických diskových polí se jedná o velké krabice (zpravidla několik racků 19"), které obsahují stovky portů (HDS USP V - 224 FC, 112 IBM® ESCON® a 112 IBM FICON®), tisíce disků (maximální kapacita HDS USP V - 507,5 TB FC kapacity nebo 1,1345 PB SATA kapacity), velké množství NVRAM (128 GB a více) a všechny součásti jsou alespoň duplikované kvůli odolnosti proti selhání. Většinou se monolitická disková pole používají k připojení mainframů a nacházejí se ve velkých datových centrech velkých společností. Nabízejí připojení pomocí protokolů IBM® ESCON®, Fibre Channel a IBM FICON® (což je vlastně Fibre Channel s vyměněnou FC-4 vrstvou) a dalších.

san hitachi ups monolitic array
Monolitické diskové pole Hitachi USP V

Další druh polí jsou již zmiňovaná modulární disková pole, které se skládají z menších částí, tzv. polic (shelf). Zpravidla se tato modulární disková pole nedají připojit k mainframe výpočetním systémům (nicméně to neplatí například o HDS AMS 2500, které lze připojit k HDS USP a používat jako mainframe storage systém). Jednotlivé police mohou být buď řadiče (pro zvýšení výkonu a odolnosti pole), které obsahují procesory, porty, NVRAM, …, nebo se může jednat o police diskové, které primárně slouží ke zvýšení kapacity pole, ty zpravidla obsahují množství disků a nějaký malý řídící procesor.

san netapp fas3000 modular array
Modulární diskové pole NetApp FAS 3000
(na obrázku je 3×12 diskových polic (504 disků) a dva řadiče)

Disková cache – NVRAM

link

Jeden z nejdůležitějších prvků diskového pole je NVRAM. Jedná se o rychlou (RAM) paměť, která je zpravidla zálohovaná nějakým jiným zdrojem napájení. Protože zápis na disk je vždycky pomalý, používá se NVRAM k ukládání informací, které jsou určené k zápisu na disk. Diskové pole potvrdí zápis právě tehdy, když se mu podaří informaci uložit do NVRAM, nikoli až ji uloží na disk. Z NVRAM se data uloží na disk až později. Čím více NVRAM, tím větší výkon pro zápis dokáže pole poskytnout.

Pole nezřídka obsahují i nezálohovanou RAM, která slouží jako read cache, případně v současné době stále častěji plní roli read cache nějaký SSD disk. Většina diskových polí má také tzv. zrcadlenou cache, což chrání proti ztrátě dat v případě, že dojde k poškození NVRAM před zapsáním dat na disk.

Připojení k diskům

link

Každý SAN řadič (controller) je nějakým způsobem připojen ke svým diskům. Toho lze dosáhnout pomocí dvou odlišných architektur, buď může být použita sběrnicová (bus) architektura, nebo přepínaná (switch) architektura. V případě použití sběrnicové architektury jsou všechny disky připojeny do jedné smyčky (FC-AL – Fibre Channel Arbitrated loop), což způsobuje, že jsou všechny disky ve stejné kolizní doméně, tedy v jeden okamžik může probíhat jen jedna operace. Přepínaná architektura tedy umožňuje, aby v jeden okamžik probíhalo více operací nad různými disky (diskovými policemi). Proto je samozřejmě, co se výkonu týče, mnohem více škálovatelná. Můžete tak k poli připojit více serverů s vyššími požadavky na I/O odezvu.

Páskové mechaniky a páskové knihovny (jukeboxy)

link

Často jsou součástí SAN také prvky určené pro zálohování dat jako páskové knihovny nebo páskové mechaniky. Pásková knihovna se od mechaniky liší v tom, že knihovna má na rozdíl od mechaniky k dispozici i fyzický úložný prostor pro volné a zablokované pásky, stejně jako robota, který umí pásku do mechaniky strčit i z ní vytáhnout. Páskové mechaniky i knihovny se dodávají v rozličných konfiguracích vhodných pro malé, střední i velké společnosti. V současnosti se nejčastěji používají mechaniky typu LTO, ty jsou zatím v 5 verzích:

V případě všech uvedených kapacit se jedná o nativní kapacitu a rychlosti jsou taktéž uvedeny pro data bez komprese. Každá LTO páska má v sobě zabudovaný tzv. Cartrige Memory chip, který se používá k ukládání informací o tom, o jakou generaci pásky se jedná (a tedy zda-li je kompatibilní s danou mechanikou), případně uživateli umožňuje uložit si k pásce doplňující informace, čehož hojně využívají zálohovací aplikace spolu s páskovými knihovnami.

Mimo skutečných páskových knihoven je na trhu také nepřeberné množství virtuálních páskových knihoven (VTL – Virtual Tape Library), které nabízejí různé pokročilé funkce, jako je deduplikace. Z pohledu aplikace, které knihovnu obsluhují, se tváří, jako by se jednalo o běžnou páskovou knihovnu se skutečnými páskami uvnitř. Místo pásek tyto virtuální knihovny obsahují disky a pásky jen emulují. Oproti páskovému řešení nabízejí vyšší výkon a spolehlivost.

Přenos dat

link

Nyní, když už víme, na čem data uložit, podíváme se blíže na to, jak můžeme data přepravit z diskového pole na server a naopak. K tomu budeme potřebovat něco, čemu se říká SAN Fabric, tedy síť. Každá síť se skládá ze dvou a více prvků (zařízení) propojených pomocí média (kabel, vlákno), které spolu komunikují společným jazykem (protokolem).

Médium

link

Optická vlákna přenášejí pulsy světla, které nesou informaci. Světlo dokáže cestovat velice rychle, ve vakuu rychlostí 299 792 458 metrů za sekundu, nicméně optická vlákna vyrobená ze skla zpomalí rychlost světla na zhruba 200 000 kilometrů za sekundu, což je ale pořád rychlé, to nejrychlejší co umíme v aplikacích nabídnout. Vlákno se skládá ze skleněného jádra, které obklopuje plášť a primární ochrana. U datových optických sítí se používají vlákna s průměrem jádra 50 μm (vícevidové), 9 μm (jednovidové) a 62,5 μm (vícevidové). Vícevidová vlákna s průměrem jádra 50 μm a 62,5 μm se používají pro přenosy na krátkou vzdálenost. Konkrétně vlákno s průměrem jádra 50 μm na 0,5 m (při rychlostech 1 Gb/s, 2 Gb/s, 4 Gb/s a 8 Gb/s) až 500 m (1 Gb/s), 300 m (2 Gb/s), 150 m (4 Gb/s, 8 Gb/s). Vlákno s průměrem jádra 62,5 μm se používá na vzdálenosti 0,5 m (při rychlostech 1 Gb/s, 2 Gb/s) až 300 m (1 Gb/s) a 150 m (2 Gb/s). Pro vyšší přenosové rychlosti se vlákno s průměrem jádra 62,5 μm nepoužívá vůbec. V obou případech je použitá vlnová délka 850 nm.

Jednovidové vlákno s průměrem jádra 9 μm se používá pro přenos na dlouhou vzdálenost od 2 m (při rychlostech 1 Gb/s , 2 Gb/s, 4 Gb/s a 8 Gb/s) do 100 km (1 Gb/s, 2 Gb/s) a 10 km (4 Gb/s, 8 Gb/s). U jednovidového vlákna se používá světlo s vlnovou délkou 1300 nm.

Konec každého vlákna je opatřen konektorem. Existují dva základní konektory, které se připojují na optická vlákna v datových sítích (ať už Ethernet, nebo Fibre Channel). Jedná se o konektory SC (Subscriber connector) a LC (Lucent connector). SC konektor je standardním konektorem v FC sítích s rychlostí 1 Gb/s, LC konektor je standardní konektor v FC sítích s rychlostmi 2, 4 a 8 Gb/s. Konektor typu SC byl původní použitý konektor v původních sítích SAN, nicméně dnes je nahrazován konektorem LC – spolu s tím, jak jsou síťová zařízení schopna obsluhovat rychlejší FC sítě. Hlavní rozdíl mezi konektory SC a LC je to, že konektory LC jsou menší, proto se například do switche s konektory LC vleze více portů.

Zařízení

link

Z pohledu přenosu dat se v SAN vyskytuje pár základních prvků, které provádějí samotný přenos dat; jedná se o Hub a Switch. Hub vytváří tzv. Arbitrated Loop, neboli síťovou smyčku. Více podrobností o Arbitrated Loop si přečtete v další části tohoto dílu. Switch slouží k vytváření fabric, neboli přepínané FC sítě.

Switch

link

san cisco mds 9513 switch
Director-class switch Cisco MDS 9513

Existují dva základní druhy FC switchů: director-class switche a modular-class switche. Hlavními rozdíly mezi jednotlivými switchi je počet dostupných portů, odolnost a udržovatelnost. Další rozdíl je samozřejmě také to, jak rychlý Fibre Channel podporují. Modulární switche jsou relativně levné (asi 100 000 Kč za HP StorageWorks, v závislosti na počtu portů) a běžně jsou k dostání ve variantě s 8, 16 a 32 porty. Mají poměrně dobré prvky pro zajištění vysoké dostupnosti, mají zdvojené napájení i chlazení, nicméně stále mají jeden bod selhání (single point of failure) – samotný řídící prvek. Mají jen jeden controller. Oproti tomu director-class switche jsou sice dražší, avšak mají více portů, jsou škálovatelnější a mají zdvojený i řídící prvek – controller. Director-class switche zpravidla začínají tam, kde modular-class switche končí. Dají se koupit s 32-64 porty a rozšířit například na 528 portů (Cisco MDS 9513).

Protokol

link

Ve světě Fibre Channel SAN sítí jsou dva základní FC protokoly, oba jsme zde již zmínili v části o různých možnostech zapojení disků. Jedná se opět o protokoly FC-AL (Fibre Channel – Arbitrated Loop) a FC-SW (Fibre Channel – Switched).

FC-AL (Fibre Channel – Arbitrated Loop)

link

První protokol, tedy FC-AL, pomáhá navázat přenos dat v sítích, kde jsou zařízení v síťové smyčce. V jedné síťové smyčce se může vyskytovat maximálně 127 zařízení. Z pohledu síťového HUBu to pak vypadá, jako by všechna zařízení byla připojena na jeden drát/vlákno. Jelikož se sdílí jen jedno spojení, tedy zařízení jsou ve stejné kolizní doméně, je potřeba, aby se všechna zařízení domluvila na tom, kdy budou komunikovat. Odsud pochází i název protokolu Arbitrated Loop – rozhodnutá smyčka; někdo (Abritr) musí rozhodnout, kdo bude v kterou danou chvíli používat komunikační kanál a na jak dlouho. Každé zařízení, které je připojené do smyčky a chce komunikovat, má přidělené tzv. Loop ID, což je číslo z intervalu 0-126 včetně (proto může mít smyčka maximálně 127 zařízení). Součástí každé smyčky může být i port ve switchi, ten má pak přiděleno vlastní Loop ID. Pomocí switche tak můžete propojit 2 smyčky o 126 dalších prvcích.

Poznámka: Toho se využívá například v NetApp Metro Clusteru – maximálně 2 diskové police jsou připojeny do smyčky a ta je připojena do switche Brocade E300. V praxi bývá kombinace FC-AL, FC-SW kombinovaná velice často právě v tom, jak jsou uvnitř pole připojeny disky.

FC-SW (Fibre Channel – Switched)

link

Na rozdíl od smyčky je v přepínaném Fibre Channelu možné, aby probíhalo více komunikací zároveň. Proto se switch někdy nazývá neblokující zařízení, neboť neblokuje komunikaci mezi zařízeními, na rozdíl od HUBu. Komunikace mezi zařízeními probíhá pomocí protokolu FC-SW, jednotlivé switche v síti pak objeví i všechny ostatní a vytvoří tzv. fabric, což dovoluje komunikovat zařízením připojeným k různým portům různých switchů. Propojení mezi různými switchi se nazývá inter-switch link (ISL). Jakmile připojíte do FC-SW fabric další switch pomocí ISL portů, dojde k automatickému objevení jak daného switche, tak všech zařízení připojených k němu. Součástí přepínaného fabricu mohou být tisíce zařízení, není zde totiž limit jako počet Loop ID nebo omezení výkonu. Všechna zařízení mohou komunikovat zároveň. K udržení přehledu o zařízeních, která jsou součástí jedné fabric, se používá databáze. Pokud chce jedno zařízení komunikovat s jiným, switch se podívá do své databáze (té se říká jmenný server a povíme si o něm později), zjistí, jestli daná zařízení mají povoleno spolu komunikovat, a poté otevře komunikační kanál.

Jelikož zařízení v jedné fabric může být mnohem více než 127 a v budoucnu se mohou jednotlivé fabric spojovat, využívá se v protokolu FC-SW k adresování jednotlivých zařízení tzv. World Wide Name (WWN). Jedná se o 64 bitů dlouhý identifikátor, který do zařízení zaprogramoval jeho výrobce. WWN jsou přidělované po prefixech jednotlivým výrobcům k užití. Tyto prefixy přiděluje Institute of Electrical and Electronics Engineers (IEEE), jedna z organizací, které mají na starosti standardy pro SAN. Například Brocade má přiděleno 00:60:69 (další prefixy získal Brocade prostřednictvím akvizic).

Jmenný server se používá k adresování všech zařízení připojených k fabric. Jedná se o službu, kterou switch poskytuje zařízením, která jsou k němu připojena, aby jim umožnil vyhledat další zařízení. Jakmile se zařízení připojí k síti FC-SW SAN, jmenný server provede jeho registraci. V databázi jmenného serveru se k jednotlivým WWN přiřazují skutečné porty na skutečných switchích.

Související články

FCoE – Fibre Channel over Ethernet
Seriál: Hardwarové novinky
NetApp – úložná řešení pro podniky
Recenze: Sun Storage 7110 Unified Storage System

Další články z této rubriky

PowerDNS – přívětivý a jednoduchý DNS server
Bootování ze sítě: pxelinux a kořenový adresář na NFS
Těžký život Do Not Track
OpenAFS – servery
Architektura IPv6 – konfigurace adres a objevování sousedů (2)

Diskuse k tomuto článku

3.8.2010 07:53 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Maximální počet FC-SW zařízení
Odpovědět | Sbalit | Link | Blokovat | Admin
Na jednu stranu stranu píšete, že počet FC-SW zařízení není omezen, na druhou stranu, že se pro jejich identifikaci používají 64b WWN. Tak jak to tedy je? Je počet omezen délkou adresy, nebo se do vyhledávacího adresáře ukládá nějaká hierarchická nebo symbolická adresa, která by jmenný prostor výrazněji rozšířila nebo byla omezena jen dostupnou pamětí switche?
3.8.2010 08:35 zenhas | skóre: 4
Rozbalit Rozbalit vše Re: Maximální počet FC-SW zařízení
Není náhodou RAID-1 pouze mirror? Myslím,že v článku je chybně uvedeno stripping mirror. To je ale RAID-10, ne?
3.8.2010 11:30 pavel c.
Rozbalit Rozbalit vše Re: Maximální počet FC-SW zařízení
SANy (SANky) jsou samostatnou oblasti IT a vyzaduji dlouha leta studia a driny. Podle me dobry SAN administrator je neco jako klaun v cirkuse. Mel by umet vse, znat UNIXove prostredi, win prostredi, neco o backupech, hw atd. Jinak odpoved na vasi otazku:
WWN je 64bit adresa tj. 2^64 kombinaci, coz je dostatecne velke cislo.
Ve skutecnosti je vsak unikatnich identifikatoru mnohem mene a to z toho duvodu ze prvni cisla udavaji tzv. Comany ID a zbytek je tzv. Vendor Specific Info

napr.: 10:00:08:00:5a:d0:55:36:ba
08:00:5a Company ID
d0:55:36:ba Vendor specific

Toto schema je vsak stare momentalne se pouziva nove schema:
napr.:
50 : 05 : 07 : 61 : bb : c0 : 82 : 33
0 : 05 : 07 : 6 - Company ID
1 : bb : c0 : 82 : 33 - Vendor Specific ID

Takze pokud mate HBA kartu, ktera ma WWNko, tak podle nej poznate i od jakeho je vyrobce. Jednotlive kody vyrobcu a jejich Company ID naleznete napriklad na wikipedii zde
Ve "switchovanych' fabricich se u Fiber Channelu pouziva kvuli vykonu adresovani na portech 24-bitove. Tim dostaneme mensi hlavicku framu v FC a max. pocet zarizeni je vetsi nez 16 milionu. Coz dnes zadna takova SAN neni. Prirazovani 24bit adres zarizuje Name server. Pak je to jeste jine napr. u FICONu atd. Dulezite je jeste rozlisovat, ze existuje nekolik typu WWN a to WWPN (World Wide Port Name) a WWNN (World Wide Node Name)
Nerad bych predbihal serial verim, ze vse bude osvetleno.
Jinak serialek vynikajici.
3.8.2010 10:18 Václav Kramář | skóre: 31 | Nechanice
Rozbalit Rozbalit vše Re: Storage Area Network – 2 (stavební bloky)
Odpovědět | Sbalit | Link | Blokovat | Admin
RAID 1, někdy také nazýván striping mirroring
martin() avatar 3.8.2010 15:05 martin() | skóre: 6 | Prievidza / Bratislava
Rozbalit Rozbalit vše Re: Storage Area Network – 2 (stavební bloky)
Odpovědět | Sbalit | Link | Blokovat | Admin
... sítí jsou dvá základní FC protokoly.

excelentny clanok, len tak dalej
Hovor múdro, nepriateľ načúva ! -- S. J. Lec --
4.8.2010 11:12 jiri.b | skóre: 30 | blog: jirib
Rozbalit Rozbalit vše backup via SAN
Odpovědět | Sbalit | Link | Blokovat | Admin
pouzivame tzn. lan-free backup, porad jsem trochu zmatenej, jak to presne funguje ;)

SAN (LAN-free) backup topology

SAN technology provides an alternative path for data movement between the TSM client and the server. Shared storage resources (disk, tape) are accessible to both the client and the server through the Storage Area Network. Data movement is off-loaded from the LAN and from the server processor and allows for greater scalability. LAN-free backups decrease the load on the LAN by introducing a Storage Agent. The Storage Agent can be thought of as a small TSM server (without a Database or Recovery Log) which is installed and run on the TSM client machine.
4.8.2010 11:13 BrainLess
Rozbalit Rozbalit vše Re: Storage Area Network – 2 (stavební bloky)
Odpovědět | Sbalit | Link | Blokovat | Admin
Hezky clanek, diky za nej. Prosim bude jeden dil venovan "ekonmice" SANu. Kazda firma musi v urcitem "bodu zlomu" rozhodnout jdeme do iSCSI,FC atd. Najit ten bod zlomu neni jednoduche.

4.8.2010 21:35 martinu
Rozbalit Rozbalit vše Re: Storage Area Network – 2 (stavební bloky)
Odpovědět | Sbalit | Link | Blokovat | Admin
Pekny clanek, dekuji.

ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.