Střípky ze stavby centrálního úložiště

18.2.2010 23:12 | Přečteno: 5227× | Diskuze | Výběrový blog

| poslední úprava: 18.2.2010 23:34

Požadavky na nové úložiště

Architektura zvoleného řešení

Výběr vhodného hardware

Instalace a konfigurace OS

Konfigurace sítě

Jumbo Frames

DRBD

LVM na DRBD

Heartbeat

DRBD

Export dat ke klientům

Ata over Ethernet - AoE

NFS

Komentáře

Nerozumim, proc v /etc/sysconfig/network-scripts/ifcfg-eth1 je uvedeno DEVICE=eth0 (+ obdobne i pro druhy interface); jako jediny duvod me napada nejake znasilnovani udevu, ale nemyslim si, ze by to bylo az tak jednoduche a takhle to fungovalo.

Pozorovali jste se zmenou MTU nejaky meritelny narust rychlosti?

Ohledne propojeni seriovym kabelem -- konfiguraci heartbeatu nerozumim, ale prijde mi, ze pro spravnou funkci jak drbd, tak stonithu potrebujete dostupnou sit, tedy split brain u vas nastane v okamziku, kdy se rozpadne privatni sit mezi dvema uzly. Jakou vyhodu ma ona seriova linka? Zduvodneni v blogpostu je takove tautologicke :).

Jako vyhodu LVM pod DRBD berete predpokladam moznost jednoducheho rozsireni prostym pridanim disku (coz se mi zda sice trosku fuj, asi bych to resil pridavanim "celeho noveho RAID volume" a udelanim dalsi DRBD partitiony, ale budiz) a jako duvod pro LVM nad DRBD zas moznost hezky delit misto pro virtualni stroje, je to tak?

Jinak hezky clanek (resp. blogpost, ktery by vydal na hezky clanek).

Blésmrt

19.2.2010 00:39 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

U přenosu přes AoE s MTU 1500 byla rychlost kolem 10-11MiB/s, s MTU 7000 cca 75MiB/s.

Když na sebe servery neuvidí tak nastane problém - mohou si o sobě myslet, že "zrovna já jsem naživu a ten druhý mrtvý" a nahodí služby oba najednou. Propojením seriovou linkou si zajistím alternativní cestu mezi servery - pokud umře síť, je pořád dost velká šance, že si popovídají po rs232.

LVM nad drbd aktuálně používám jen na malé nedůležité oblasti na snapshoty. Porcování na virtuály zatím nepoužívám, ale časem budu.

Zápisek měl být původně jen jako osnova pro článek, ale když už jsem toho měl tolik, tak jsem to zveřejnil. Počítám s postupným rozepsáním jednotlivých kapitol (konfigurace a funkce heartbeatu např.).

-- Nezdar není hanbou, hanbou je strach z pokusu.

Tak teda podobny reseni pouzivame taky:)

Mame HW od Thomas Krenn s RAIDem Areca (tusim) 1260. IMPI taky.

Mame servery od sebe dal (jeden v -2. patre a druhy ve 3. patre), takze heartbeat zeneme po vlastni siti, pro replikaci mame dalsi oddelenou sit, pres kterou se taky pripojuji data na virtualni hosty a pak sdileji ke klientum.

S iSCSI jsme meli na zacatku problemy, takze servirujeme jenom pres NFS.

Vytvoreny RAID disk ale mirrorujeme rovnou na druhy disk a teprve na drbd zarizenich mame VG, ktere pak rozdelujeme do LV. Je to tak jednodussi, ze pri pridani noveho disku nemusim konfigurovat znovu drbd a startovat synchronizaci, ale proste jenom vytvorim LV. Na druhou stranu, pokud se musi udelat full-sync, tak to trva na celem disku. Ale radsi si pockam na full-sync, nez bych pri upravach drbd shodil oba servery:)

Jako FS na NFS share pouzivam reiserfs.

heartbeat se u nas stara o nastaveni drbd primary, nahozeni VG z DRBD, aktivovani LV ve VG, pripojeni oddilu, nahozeni shared IP a nastartovani NFS.

Pro XEN image pouzivame soubory na NFS.

Primlouval bych se za clanek, takhle dobry popis jsem uz dlouho necetl.

Testovali jste uz jak se to chova kdyz jeden server vypnete ze zasuvky?

19.2.2010 11:28 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

V testovacím režimu to běželo několik měsíců, různých násilných restartů, výpadků a dalších událostí bylo několik desítek.

Článek bude. Začal jsem to psát jako osnovu k článku, ale když jsem viděl kolik textu jesem už napsal, zveřejnil jsem to aspoň v blogu. Mám tak možnost získat připomínky, které zohledním v článku.

Co mám zatím poznamenáno na doplnění do článku:

učesat text tak aby byl čitelný a používaly se správné výrazy,
víc rozebrat proč jsem zvolil řešení s DRBD a ne externí diskové pole,
dopsat lépe konfiguraci síťě,
popsat heartbeat a jeho ovládání,
popsat základní pracovní postupy,
zkusit vylovit případně doměřit něco tom jak rychle se nám kvedlají disky,
monitoring clusteru.

+ NFS, IP adresa pro služby, GUI k heartbeatu

-- Nezdar není hanbou, hanbou je strach z pokusu.

No nevím, ale při požadavcích na vysokou dostupnost bych se asi jen stěží pouštěl do vlastního řešení :-)

Yes, this guy have a NetApp label :)

19.2.2010 11:39 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

To jsem čekal :-)

máme omezený rozpočet
drbd a heartbeat nám už pár let běží u zákazníka a vím co od toho můžu čekat

Můžeš mi udělat odhad na kolik přijde řešení s využitím NetApp?

synchronní replikace dat mezi dvěma boxy
support 3r - fix NBD
počáteční kapacita 4T RAW, RAID6 pro disky 750G SATA pro data kde není třeba výkon (10ks), menší SAS disky v raid 10 pro to kde je třeba výkon a není tolik dat (10ks)
iSCSI nebo AoE, NFSv3 (předpokládám, že quoty a zámky fungují na NetAppu bez problémů)
v případě výpadku jednoho boxu je nutné aby služby fungovaly dál - je tedy nutné zajistit multipathing pro iSCSI a správné přehození NFS na druhou stranu.

Na serverech, které používáme pro úložiště běží ještě některé další služby - např. centrální syslog, to předpokládám musím zajistit u NetAppu jiným serverem.

-- Nezdar není hanbou, hanbou je strach z pokusu.

19.2.2010 13:24 gtz | skóre: 27 | blog: gtz | Brno
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

No nedávno jsem řešil nějaký podobný kousek, nakonec jsem pro pole i páskový autoloader volil verzi FC.
Cena byla o něco vyšší, ale rozhodla rychlost pole 8Gbit.

FC/SAS RAID 6, redundant controller, ASIC 667 (G6), 19”, 4x 8 Gbit FC , 2 GB cache, 12x 500 GB SATA
cena kolem 8000€

- nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude

19.2.2010 14:07 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Taktéž jsem čekal, že se ozve :D.
Zdar Max

Měl jsem sen ... :(

19.2.2010 16:02 gtz | skóre: 27 | blog: gtz | Brno
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

No taky to bylo tvořeno pro zákazníka coby home-made jen s dodržením podobných parametrů. NetApp byl pro ně celkem hodně drahý.

- nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude

19.2.2010 17:01 Käyttäjä 11133 | skóre: 58 | blog: Ajattelee menneisyyttä
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Měli jste opravdovou nabídku, nebo jen listovku, protože oproti listovce si můžete dát tak 40% off, případně můžete jít k nSeries IBM a pak je to dalších 10 - 15% off :)

19.2.2010 17:17 gtz | skóre: 27 | blog: gtz | Brno
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Nabidku pro nas delala jedna Brnenska firma, na Netappu se kvuli tomuto zjistovala moznost Projektove Ceny. I tak ta cena byla ponekud nahore. nSeries jako proc .. servery tam byly DELL / HP. Zakaznik nechtel pole typu DS3x. Ja jsem mu nabizel Hitachi AMS, s kterym mam ty nejlepsi zkusenosti i s Produktovou cenou jsem s AMS byl hodne nad jejich moznosti.

Delam v tomto businessu (storage a ukladani dat) celkem hodne dlouho (od roku 2003), s listovkou bych tam ani nesel. Vim jak je to tezke s zakazniky jednat kdyz maji omezeny financni rozpocet.

- nejhorší jsou trpaslíci ... Ti Vám vlezou úplně všude

19.2.2010 12:16 Zdenek
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Pri pozadavcich na kvalitni OS bych se stezi poustel do Linuxu.

Kde jsou dnes ty drahe UNIXy a kde je Linux?

To je ale bestie.

Když si představím jak je to složité, kolik v tom běžícím kódu musí být bugů, tak je mi ouzko. Nechtěl bych řešit situaci, kdy se někde něco vysype.

19.2.2010 12:06 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Když to rozebereš na samostatné části, tak to tak strašné není. Linux/lvm, drbd, vblade, heartbeat/pacemaker - když se něco podělá, tak jsem schopný velmi rychle nahodit služby i bez heartbeatu na jednom z těch serverů.

Pokud se rozhodneš použít například pole připojené přes scsi/sas, můžeš se zbavit DRBD, ale zase tam bude to pole a některé bugy firmware jsou taky dobrá chuťovka, zvlášť u low-end polí které by se k takovému řešení muselo pouřídit z důvodu ceny.

-- Nezdar není hanbou, hanbou je strach z pokusu.

19.2.2010 14:13 CET
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Jojo, a pak to dopada podobne, jako kdyz jsme si do firmy nakoupili male gs108t od netgear jako office switche. Pak jsme zjistili, ze nektery stanice maji pomalou sit, bud jenom na jeden server nebo na vsechny servery. Pres rok od reportovani chyby na support jsme vlastnima silama zjistili, ze problem je v neulozeni MAC adresy do pameti switchi, cili zrejme nejaka kolize a nalezeni dvou kolidujicich MAC adres. Teprve potom support odpovedel, ze to je opravdu kolize hashe, ze to je vlastnost prvni verze switche a druha by to snad mela mit opraveno. Co vic, z toho dokumentu, co poslali, vyslo najevo, ze switch nema (fyzicky) misto pro 8 tisic MAC adres, jak se pise ve vsech manualech k tomu switchi, ale jenom pro 4 tisice, a navic ten pocet je jeste zmenseny o ty hash kolize.

V Linux reseni se aspon muzes pohrabat, v uzavrenych ne. BTW: prave se mam rozhodnout, cim nahradime par starsich windows masin pro uzivatelsky data.

Ahoj, chtěl bych se zeptat proč jste zvolili Centos. Prostě ho znáte, máte nasazený ve větším apd. Zajímalo by mě, zda jste u tohoto typu použití neuvažovali např. o
FreeBSD/ZFS úložiště
Solaris 10/ZFS úložiště
OpenSolaris/ZFS úložiště
Nemá to být flame bajt, jen mě zajímá jak to je. Sám bych zvažoval Solaris, právě kvůli stabilitě a slušné funkčnosti ZFS.

19.2.2010 16:22 mimi.vx | skóre: 37 | blog: Mimi.VX | Praha
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

solaris ma pod oracle nejistou budoucnost .....

USE="-gnome -kde";turris

19.2.2010 16:36 Vskutečnosti Saýc | skóre: 7
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Krom toho, ZFS je jeste docela nova technologie, a se zalohovacicimi a HA resenimi to neni tak zhave.

19.2.2010 16:58 KKL | skóre: 10
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Myslím, že Oracle nenechá Solaris padnout, ale třeba se pletu :) Uvidíme co přinese budoucnost.

19.2.2010 21:18 regine2 | skóre: 14
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Není to OS, ale když se db-firma Informix nechala koupit IBM, tak přestalo jít o technologii či služby zákazníkovi, ale je z toho jen bussines až na prvním místě. Škoda.

Dokud nepřiletí mimozemšťané, všechno už jaksi bylo.

19.2.2010 16:57 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

CentOS případně RHEL používáme delší dobu, jsou s ním dostatečně dobré zkušenosti, má velkou komunitu uživatelů a je tu Red Hat, který za ním (RHEL) stojí. Prakticky každý u nás ve firmě zvládne jeho správu.

U FreeBSD nevím o srovnatelném stabilním řešení pro DRBD a také se o servery nechci starat sám. Musíme tedy nasadit něco známějšího a mám pocit, že v případě Linuxu najdeme snadněji admina než v případě *BSD. Zkušenosti se ZFS na FreeBSD nemám.

Solaris mám rád, ale na SUN HW a v trochu jiném nasazení. Umím si představit SUN Cluster + vhodné diskové pole, jenže to se dostáváme na jinou cenovou úroveň. Včera mi bylo na IRCNetu sděleno, že existuje Sun StorageTek Availability Suite umožňující podobnou funkčnost jako má DRBD, ale nemám s tím dostatečné zkušenosti. Docela by mě zajímalo jak to dopadne s OpenSolarisem a Solarisem jako takovým pod taktovkou Oracle. Taky bysme narazili se správcem Solarisu - asi jich nebude tolik jako v případě Linuxu. Sice ve firmě známe solaris 3 lidi, jenže všichni chceme správu serverů opustit a věnovat se jiným a zajímavějším věcem :-)

-- Nezdar není hanbou, hanbou je strach z pokusu.

19.2.2010 17:04 KKL | skóre: 10
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Ok, díky za odpověď. Je fakt že SUN Cluster bude cenově dost jinde..... Jak to bude se SUN produkty pod Oracle jsem taky zvědavý, mám z diskuzí pocit, že jsou lidi ohledně budoucnosti dost nervozní - Oracle by měl dát k dispozici jasný plán, co bude jen udržovat, co rozvíjet a co úplně zastřelí. Sun StorageTek Availability Suite - také neznám, mrknu na to - díky za tip.

19.2.2010 17:06 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Nejde o cenu SUN Clusteru (ten je zdarma), ale o ten HW pro Solaris pod ním a o vhodné diskové pole.

-- Nezdar není hanbou, hanbou je strach z pokusu.

19.2.2010 17:29 KKL | skóre: 10
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Aha, dík za osvětu, to jsem ani nevěděl že i Cluster je zdarma. V této oblasti ( enterprise hw/sw ) se nepohybuju a vím toho o tom prd. :)

22.2.2010 15:54 David Krch
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Pokud jde o plan co bude s jednotlivymi produkty Sun po akvizici, tak ten uz je zverejneny nekolik tydnu. Podivejte se na http://www.oracle.com/events/productstrategy/index.html, najdete tam ke kazde oblasti kratke video.

Hezký zápisek, v létě jsem nad něčím podobným přemýšlel, ale ještě nepřišel správný čas... Nicméně v mém návrhu je ještě na vrcholu GFS2, s tím, že se GFS2 oddíl budu sdílet mezi 4mi virtualy a ty tam budou moc souběžně zapisovat (WWW,mail,...) ale nutně potřebuji i quoty a možnost simultánního zápisu.. Je možné tohoto dosáhnout pomocí NFSv3 a jak tam s quotama?

19.2.2010 18:44 Zdeněk Burda | skóre: 61 | blog: Zdendův blog | Praha
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

Na NFS samozřejmě quoty normálně používáme, jinak bych měl při našem počtu uživatelů (tisíce) docela problémy :-)

-- Nezdar není hanbou, hanbou je strach z pokusu.

19.2.2010 19:48 Miloš Kozák | skóre: 18 | blog: jentak
Rozbalit Rozbalit vše Re: Střípky ze stavby centrálního úložiště

A jak je to se současným přístupem k filesystemu?