ZFS : Stavba a zkušenosti se ZFS storage

18.5.2020 12:56 | Přečteno: 9133× | linux | Výběrový blog

| poslední úprava: 3.3.2021 01:15

Co je to ZFS

ZFS (Zettabyte File System) je souborový systém vyvinutý firmou Sun Microsystems. Ze začátku probíhal vývoj uzavřeně v rámci Solarisu. ZFS byl vypuštěn na světlo v rámci projektu OpenSolaris v roce 2005 pod licencí CDDL, která není kompatibilní s GPL licencí. V roce 2007 zažaloval NetApp firmu Sun, protože údajně došlo k porušení patentů NetAppu, který vyvíjel WAFL filesystém (Write Anywhere File Layout). V této souvislosti na oplátku zažaloval Sun firmu NetApp. Soud byl ukončen v roce 2010 vyrovnáním, ohledně kterého nejsou známy žádné další podrobnosti.

V roce 2010 koupil Oracle firmu Sun. Mj. projekty Solaris a ZFS tedy přešly pod křídla Oracle. Oracle zrušil OpenSolaris a vývoj začal pomalu uzavírat.
V roce 2013 proto vznikl projekt OpenZFS, který si kladl a klade za cíl spojit vývoj ZFS pro Illumos(vychází z projektu OpenSolaris), FreeBSD, Linux, MAC OS a Windows. Nad tímto projektem je postaveno spousta komerčních řešení a sponzoruje jej nemálo firem. V současné době tedy nejsou na místě obavy z toho, že by podpora ZFS zanikla.

Pokud bych já osobně měl srovnávat btrfs se zfs, tak řeknu, že to je zatím nesrovnávatelné. Nepřijde mi, že by si tyto dva FS nějak konkurovaly, tedy zatím. ZFS je dělaný pro big storage, což btrfs nedává a dávat zfs na něco malýho také není nejrozumnější. Každopádně nechám zde prostor pro diskusi. Budu jen rád, když někdo v diskusi ukáže, jak podobný storage tomu, co popíšu, postavit na btrfs. Osobně si myslím, že to nejde udělat nějak rozumně.

Jak je koncipován ZFS

Máme samotné disky, ze kterých uděláme vdev. Vdev je něco jako RAID pole. Tzn., že můžeme použít mirror, raidz, raidz2, raidz3. A tyto vdevy se vkládají to poolu. Když máme vytvořen pool, tak v rámci něj vytváříme datasety. A do těchto datasetů pak už zapisujeme data (adresáře, soubory atd.). Dataset je tedy něco jako hlavní adresář, nad kterým si můžeme zapínat online kompresi, dělat snapshoty atd. Pokud jednou vytvoříme vdev z 5 disků a dáme do poolu, tak už ten vdev neodebereme. Stejně tak nelze ten vdev ponížit např. o jeden disk a nechat v něm jen 4 disky. Jak to ze začátku nastavíme, tak už s tím nehneme a musíme pokračovat v tom, co jsme započali.

Big storage na zálohy s možností instant recovery

Když se bavíme o storage na zálohy, tak chceme hlavně velkou kapacitu, ale i nějaký rozumný výkon v IOPS kvůli paralelním operacím. Nechceme třeba vypínat zálohování, když potřebujeme něco rychle obnovit. Nebo když chceme udělat instant recovery nějaké VM (= spustit VM ze zálohy a pak live migrací přelít zpět na produkční storage).

Pro tento účel jsem vybral zlatou střední cestu. Tzn. storage založený na enterprise SATA diskách. Konkrétně jsem šel cestou 4TB WD RE4(později WD Gold, WD Ultrastar DC HC310, Toshiba MG04). Je to sice dražší, než desktop disky, ale lépe se chovají při chybách, mají 5 let záruku a jsou levnější jak SAS disky a výkon je přitom rozumný. Kdybych stavěl produkční storage pro ostré app, tak bych šel rozhodně do SAS disků, resp. dnes už čistě do SSD pole.

Specifikace HW a složení pole

ZFS pool je poskládaný takto :
4x RAIDZ2, každý z 8xSATA 4TB + společný 1x spare
Víc, jak 8 SATA disků v jednom RAIDZ2 bych nepoužíval. Je to kombinace kapacity a rozumné redundance disků. Dále nechci dělat žádné divočiny, takže jakékoli rozšiřování pole chci dělat ve stejném duchu. Pokud tedy teď jedu RAIDZ2 z 8x SATA, tak při rozšiřování pole skákat opět po 8x SATA je celkem rozumné.

Výsledkem je tedy 128TB RAW pole, použitelných je 96TB, resp. je třeba i myslet na to, že by se nemělo jít nad 80% zaplnění, takže reálně máme k využití 77-80TB a větší zaplnění raději nepřekračovat.

FreeNAS/TrueNAS aneb ZFS střední cestou

Nejnativnější je ZFS na Solaris like systémech. Problém těchto OS je ale v přecijen o něco menší podpoře HW. ZFSonLinux má stále několik nedostatků a pak je tu ten licenční problém. Jako operační systém jsem tedy zvolil FreeNAS (tzn. FreeBSD). Důvodů bylo několik. Jednak pomohl ze začátku web ksicht pochopit celou filozofii ZFS a další věci, dále možnost správy mých neunixových kolegů (jako vždy se ukázalo, že to je zbytečné, protože nikdo jiný nemá potřebu ani vůli na to sahat), poté kvůli dobrému přehledu a statistikám a nakonec a hlavně kvůli tomu, že lidi od projektu FreeNAS mají ZFS vytuněné lépe, než to, co je v core FreeBSD. Když bych měl stavět další storage, nešel bych do čistého FreeBSD, ale opět do FreeNAS.

FreeNAS a swap

FreeNAS si každý disk rozdělí a na začátek si dá malý oddíl, který používá jako swap. Ve finále tedy máme třeba 30 disků a u každého první 2GB jsou použity jako swap. Osobně tuto filozofii nechápu, protože jakmile disk odejde do věčných lovišť, tak storage jde 100% do kolen (dokonce mám i osobní zkušenost). Doporučuji si dělat dobrý sizing, mít dost ram, neprovozovat na FreeNAS různé pluginy, co žerou ram atd. a hned po instalaci FreeNAS si v jeho nastavení vypnout vytváření swap oddílů a jet čistě bez swapu. Pokud už je pozdě a swap máte vytvořen, není nic jednoduššího, než příslušné partition ze swapu odebrat a tím i swap zrušit.

FreeNAS a šifrování

Pokud chcete šifrovat data, tak s tím musíte začít od začátku, tj. zvolit tuto možnost při vytváření poolu. Šifrování se totiž dělá nad blokovým zařízením (geli), protože FreeBSD nemá v ZFS podporu šifrování (zdroj). Zajímavé je, že ZFSonLinux tuto podporu již má. Pokud máte vytvořený pool a už máte produkční provoz, tak přejít na šifrování není jednoduché. Jeden z postupů je si vždy zašifrovat nový disk a pak ho prohodit za jiný v poolu. Ten, co byl prohozen pak zašifrovat a opět prohodit s jiným diskem v poolu a tak stále dokola, dokud nebudou všechny disky zašifrovány (jde to, ale dře to).

ZIL a SLOG

ZFS má ZIL (ZFS Intent Log). Ten se používá v případě sync zápisů. To jsou ty, u kterých se musí čekat, až pool odpoví, že je vše zapsáno na disky. To bývá někdy pomalé, obzvláště pokud máme pomalý pool. Proto se nejdříve zápis provede do ZIL, potvrdí se zápis a pak na pozadí se to zapíše do poolu. Dalo by se tedy říci, že to je něco jako journal u journalovacích FS (ext3/ext4/reiserfs/ntfs apod.)

ZFS ale umožňuje tento ZIL umístit bokem na jiné zařízení. Tomu se pak říká SLOG (Separate Intent Log). Je tedy vhodné pro SLOG mít vyčleněný nějaký rychlý SSD disk. A protože se jedná o data, která jsou již potvrzena a brána tak, že jsou zapsána, tak je nutné si SLOG dostatečně chránit. Není tedy moc vhodné jej mít jen na jednom SSD, ale vytvořit si vdev (mirror) dvou SSD. Toto opatření ale nestačí. Je také třeba volit vhodné SSD. Pokud pole stavíme pro kritické aplikace, tak je dobré zainvestovat do SSD, které mají Power Loss Protection (zaručují, že výpadkem proudu nepřijdete o jediný bit dat).

Proč 1x Intel Optane?

Do tohoto SSD jsem šel z několika důvodů. První je to, že současný řadič nepodporuje připojení SSD přes U.2 / NVMe. Druhým důvodem byla relativně hodně slušná životnost na přepisy i latence a parádní cena. Pokud bych chtěl něco takového ze světa MLC, musel bych si také nemálo zaplatit. Nicméně tento SSD používám v menším risku. První risk je v tom, že tento Optane nemá power loss protection. Druhý malý risk je v tom, že mám jen jeden Optane jako SLOG. Každopádně jedná se o backup storage pověšený na 2x 10kVA UPS, takže si to lajznu. U produkčního storage, kde by měly běžet ostré služby, bych to řešil určitě dvěma SSD pro SLOG (pokud bych pole neskládal z SSD, ale rotačních disků).

SLOG na SSD : Jak moc je výkon znát?

Celkem hodně. A kdo nemá SSD na otestování, může si trochu zariskovat a v rámci testování si může vytvořit SLOG z ramdisku a porovnat výkon BEZ a S. Jak na to viz :

Jak je to s výkonem takového storage / IOPS?

Je třeba si uvědomit, že vdev (ať mirror, nebo RAIDZ) má výkon IOPS v zápisu na úrovni 1xHDD. Je to dáno tím, že při zápisu se čeká vždy na všechny disky ve vdevu, až dokončí operaci. Výše mám tedy poskládaný pool z 4x RAIDZ2, takže v IOPS mám výkon 4x 80-150IOPS. Reálně díky cache a pár věcem kolem není problém dlouhodobě vykrývat přes 5k IOPS. Storage mám stále pod zátěží, aktuálně na něm nouzově běží jedna celkem diskově náročná VM (šmejďárna, co se snaží permanentně žrát 300-500IOPS), takže tento test je třeba brát jen jako malou indicii :

Vliv výkonu u fragmentace a zaplnění

ZFS si fragmentaci dat řeší samo online. Stav fragmentace lze zjistit takto :

Pokud jde o zaplnění diskového prostoru, udává se, že se nesmí přešvihnout 80% zaplnění. Poté jde výkon dolu a začne stoupat fragmentace. Nicméně pozor, těch 80% se netýká všech možných nasazení. Lze se třeba dočíst, že v případě provozu VM, kde bude jako storage backend ZFS, je nejlepší používat vdev mirror a nepřesáhnout zaplnění 50%. Důvod je ten, že takové nasazení je náchylnější na fragmentace a degradaci výkonu. Toto samozřejmě platí, pokud budeme mít pole poskládané z magnetických disků, u kterých je fragmentace problém. Osobně jsem ale toto nikdy neřešil, takže nemohu potvrdit, jak moc reálný dopad to má.

Výkon čtení - single thread / multi thread a vdev mirror vs raidz

Životnost disků a chybování

Životnost kontroluji přes SMART. Dělám jednou týdně long SMART testy, ale přemýšlím o jejich zbytečnosti (jak z podstaty, tak z hlediska zbytečného performance impactu). Ten storage je celkem vytížený (denně se zapíše cca 2TiB dat a jednou týdně backup menší 7TiB databáze navrch), takže se kontroluje neustále to, co se stejně už děje věčným čtením a zápisy. Přemýšlím, že ty long testy stopnu a nebudu je už dělat a nechal bych jen shorty. Uvidíme, zatím je to jen ve stádiu úvah.

Pokud jde o scrub (kontrolu konzistence dat celého poolu), Poslední scrub praví toto (trval jeden den, takže

Chyby

Disky většinou nechávám skoro dožít, nějaký občasný realokace mně nechávají klidným. Aktuálně mám špatný toto a zatím mně to nijak extrémně netrápí :

2) U dvou paměťových modulů se občas objeví chybka (až bude time odstávky, zkusím je prohodit, pokud nepomůže, půjdou na reklamaci):

3) SMART pár disků ukazuje, že je možná čas řešit reklamaci (zbytek je ok, tzn. 0 realokací a žádné chyby ve SMART error logu) :

Zatím pošlu da20, protože začíná dost často vyhazovat v logu "CCB request completed with an error" a těch realokovaných eventů už má fakt dost. První dva jsou zatím ok, resp. nejsou, ale je to zatím v klidu (= neohrožují provoz). Nicméně vzhledem k tomu, že se blíží konec záruky, je otočím také.

Počty reklamací

Jak vidíte výše, zas tak moc si z malého zaškobrtnutí nelámu hlavu (hlavně proto, že používám ZFS, jinak bych si to nelajz). Dřív stačilo 50 realokovaných sektorů a už disk šel. Jo, kdyby to nebyl backup storage, tak bych tam ani jeden z těch tří disků už neměl. Za 4 roky provozu jsem reklamoval celkem 6 disků a ty tři výše půjdou teď. Zde je ale třeba si uvědomit jednu věc. Nemám od začátku takové rozložení disků ani to SSD jako SLOG. Ty disky jsem někdy dost silně zatěžoval a měl pod 100% zatížením celkem dlouho. Kdybych měl od začátku rozložení jako teď + ten Optane, tak si myslím, že by jich doteď odešly(=vykazovaly chyby) třeba jen dva a né 9.

Jak se mění disk

Uděláme replace (nedělá se fullscrub, překopírují se jen data toho disku na nový / náš spare disk). Následně si rozsvítím červenou diodu na šasi u disku, který chci vyměnit pomocí příkazu :

Jak se chová pole s vadným diskem

Existují případy, kdy disk vykazuje drobné chyby a nebo úplně vypadne a odmlčí se. To jsou ty lepší případy. Pak je zde případ, kdy disk je silně poškozen, ale ještě se drží a funguje s velkou chybovostí. Poté si toho všimne ZFS :

Dobré je tedy to, že pole i takto ošklivý disk ustojí. Pokud bychom na něco podobného narazili u jiného řešení (třeba mdadm), tak se bude čekat na hodně velké timeouty, které budou mít za následek znefunkčnění pole a služeb nad tím běžících. V našem případě všechny služby fungovaly, VM nad storage běžela, ale některé backup úlohy se hodně protáhly.

Kolik je potřeba paměti?

Papírově se udává minimálně 1GB ram na 1TB RAW. V případě zapnuté deduplikace je doporučováno 5GB ram na 1TB RAW. Toto nejsou minimální možné hodnoty, ale hodnoty doporučované, u kterých máte jistotu, že se vám to nesesype. Já mám té paměti opravdu hodně, protože jsem jednak musel přidat CPU kvůli dalším kartám, dále jsem počítal s rezervou na rozšiřování (to mně teď čeká, do začátku o 8x SATA) a jeden čas jsem na tom serveru provozoval i nějaké VM, které dělaly bridge pro jiné druhy záloh.

Reálně využitá paměť

Reálné využití paměti se odvíjí od reálných dat. Tzn. záleží na tom, co máte na storage uloženo. Když bych měl já uvést maximální alokaci paměti u mých dat, tak je to tato :

Jinými slovy, aktuální storage využívá v produkci 56GB RAM, což je 438MiB na 1TB RAW kapacity, nebo také 584MiB na 1TB dat. To je tedy úplně oholená kost. Pokud bychom chtěli fungovat, tak dává smysl minimálně 750MB ram na 1TB dat + režie OS / dalších služeb.

Deduplikace

Jak je vidět, tak analýza poolu trvala 1h 20min. Předpokládaný dedup ratio je 1.11, takže bychom zapnutím moc místa neušetřili.

Jeden DDT (deduplikační tabulka) zápis má v průměru 320 byte. v případě mých dat by bylo tedy potřeba minimáně : 577M * 320 = 184 640MB RAM. Jinými slovy 185GB RAM jen pro DDT tabulky (a to přesně, je potřeba připočítat ještě rezervu pro další záznamy). Poté je ještě potřeba ram pro běžné režie (výše zmíněných 750MB ram na 1TB dat). Můj příklad tedy vychází, že se zapnutou deduplikací bych potřeboval minimálně 1,45GB ram na 1TB RAW, nebo 1,93GB ram na 1TB dat. Reálně však ale 1,8 + 0,75 = 2,55GB na 1TB RAW, nebo 2,3 + 0,75 = 3GB RAM na 1TB dat + režie OS / dalších služeb.

Jak je tedy vidět, tak v obou případech nejsou tabulkové doporučení od těch skutečných tak daleko, pokud tedy započítáme, že data mohou být hodně rozdílná a v určitých případech může být využití ram ještě o něco vyšší.

Na co si dát pozor

Bacha na dostatek ram

Pokud si chcete hrát a zapnete si bez uvážení deduplikaci a nebudete mít dostatek ram, tak máte velký problém. Dojde vám ram a server padne. Po restartu se vám pool, potažmo datasety, nenaimportují, protože při jejich importu opět dojde ram. Východisko z této situace může být jediné, doplnit fyzickou paměť do serveru. Tj. celkem nepříjemná věc, která většinou nejde hned vyřešit.

Bacha na řadiče

Zásadně nepoužívejte žádné řadiče s cache apod. Vždy jen čistě HBA řadiče, aby ZFS vidělo na fyzické disky. V opačném případě si zaděláváte na problém. Já to vyhrál úplně, protože jsem kdysi pořídil Areca řadič, který sám o sobě nebyl stable. V případě 100% vytížení disků se odmlčel. Celkem náhoda jednou za x měsíců. A to jsem měl disky v passthrough. Další problém s Arecou byl, že k omezeným SMART informacím se dalo dostat jen přes tool od Arecy. Tzn. i když byly disky v passthrough, smartmontools měl problém. Občas i Areca disky odpojovala (vnitřní timeout, když disk byl delší dobu ve 100% zatížení, jí asi donutil). Pokud tedy nepoužijete hloupý HBA řadič, tak se vystavujete potenciálním problémům i co se diagnostiky životnosti disků týče. Myslím si, že výše uvedené LSI je parádní. Dnes už bych sáhl po novějším ks v podobě Tri-Mode řady, která právě podporuje připojení kromě SATA/SAS i NVMe disků.

Bacha na použitý typ pole

Pokud si postavíte pool z jednoho RAIDZ, tak si uvědomte, že výkon v IOPS bude tragický, obzvláště bez SLOG. Takový případ nelze pomalu použít ani na zálohy, protože stačí spustit zálohu i obnovu najednou a storage se může lehce ubít.

Pečlivý výběr HW

Sestavit si server, kde není něco úplně 100% funkční ve FreeBSD/ Solaris like OS je dost zásadní chyba. Je tedy třeba vybírat rozumné řadiče i síťové karty. Lidi ze světa Linuxu na to už moc zvyklý nejsou, ale ostatní OS nemají tak rozšířenou podporu HW jako Linux.

Co bych použil aktuálně za železo?

Se Supermicro nemám problém. Jejich skříně jsou parádní, člověk si může poskládat, co jen chce. Zálohovací storage bych dnes poskládat úplně stejně, jen s tím rozdílem, že bych jako CPU použil jeden Epyc Rome 7232P a LSI tri mode řadič (podpora ve FreeBSD už je), abych do něj mohl jako SLOG dát Optane 905p 480GB U.2. Pokud jde o disky, tak sice mně trochu nahlodává lepší cenová rentabilita 6TB SATA disků, ale asi bych přecijen zůstal u 4TB variant.

Pokud bych měl stavět storage např. pro produkční běh VM, tak bych postupoval podobně, jen bych použil dva řadiče a SAS disky (kvůli lepší životnosti a podpoře DP - DualPort). Jako SLOG bych pak použil dva SSD v mirroru.
Resp. bych asi rovnou použil SSD SAS nebo NVMe disky s podporou DP a vůbec neřešil SLOG a rotační disky.

Diagnostika a statistiky

Kromě různých možností tunění je síla ZFS i ve velmi podrobných diagnostických nástrojích. Analýzu ARC v podobě "arcstat.py" jsme si již částečně ukázali. Zobrazit stav fragmentace, deduplikace a zaplnění lze pomocí příkazu :

Komerční řešení storage se ZFS

Závěr

V zápisku není zmíněno vše, je to jen ukázka toho, jak věci mohou fungovat / nefungovat. Dokumentační projekt k ZFS v tom tedy nehledejte. Zajímavé ale je, jakým tempem jde implementace ZFS na Linuxu kupředu (jak z hlediska funkčnosti, tak z hlediska zájmu firem).

Anketa

Komentáře

"Dojde vám ram a server padne. "

"...3GB RAM na 1TB dat + režie OS / dalších služeb. "

Presne tohle je pro absolutni vetsinu vyuziti naprosty nogo. Nehorazna spotreba ramky a naprosto nemozny chovani kdyz dojde.

Jinak by me zajimalo, co si mam predstavit pod "... big storage, což btrfs nedává ...", protoze "...Zásadně nepoužívejte žádné řadiče s cache ..." samo o sobe rika, ze je to tak maximalne hracka, na dlouhy coronavirovy vecery, ale v realnym svete se to pouzivat neda.

---

Bezte stim guuglem dopice!

19.5.2020 12:26 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

3GB/1TB dat je v případě duduplikace, což se moc nepoužívá (není moc nasazení, kde to dává smysl).

Proč vznikly cache na řadičích? Protože to byla a je výkonnostní záplata pro hloupé systémy, které neumí cachovat a nepotřebují ani vědět, co pod nimi běží. Pokud mám systém, který si umí dělat vlastní cache, je rázem zbytečné používat hw fix.
Navíc cache na řadiči má omezenou životnost díky baterii. Člověk tedy musí preventivně měnit jednou za 4-5 let (bavíme se tedy o investici několik tisíc a nucené odstávce), jinak by se dočkal neplánovaného odstavení cache a výkonnostního propadu. Některé řadiče dovolují natvrdo cache znovu zapnout bez baterie, ale to není řešení pro produkční běh.
Poté existují náhrady za baterie v podobě plata kondíků, které by v sobě měly udržet potřebný počet energie, aby data v cache nechcíply. Nevím ale, jak moc se to používá.
Nicméně tím se řeší jen cache, neřeší se skládání pole jako takového, kde klasická RAID pole nenabízí redundanci jako zpool + raidz. Lze to řešit tak, že fci poolu nahradíme třeba pomocí LVM. Tzn. na řadiči si povytváříme několik RAID6 a v OS si to pomocí LVM spojíme. To by šlo, ale nemáme nikde rozumnou kontrolu konzistence dat.

Ad btrfs. Jak už jsem uvedl v zápisku, osobně 100TB považuji za větší pole, takže jak by se podobné pole dalo poskládat s btrfs, aby to mělo podobné parametry a diskovou redundanci?
Zdar Max

Měl jsem sen ... :(

19.5.2020 13:08 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Já pořád nechápu, proč na tohohle j-trotla, který si žije ve vlastním světě, ve kterém funguje jenom to, co nefunguje ostatním, ale zato nefunguje nic z toho, co ostatní běžně používají, ještě někdo reaguje.

Poté existují náhrady za baterie v podobě plata kondíků, které by v sobě měly udržet potřebný počet energie, aby data v cache nechcíply. Nevím ale, jak moc se to používá.

Superkondenzátorů - oproti normálním kondenzátorům je to trochu rozdíl. Používá se to třeba u ~~LSI~~ (dosaďte si vlastníka pro rok, kdy to čtete) 3108. Místo několika hodin nabíjení baterie, kdy řadič běží s degradovaným výkonem, se to nabije při bootu za asi deset sekund.

To by šlo, ale nemáme nikde rozumnou kontrolu konzistence dat.

dm-integrity? Teda pokud kontrolu konzistence dat nemá filesystém.

Quando omni flunkus moritati

19.5.2020 13:49 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Spíš jsem reagoval na ten hw řadič. Jinak dm-integrity + btrfs by mohlo být řešením (pokud bychom chtěli kontrolu integrity dat i snapshoty a věci okolo), ale obávám se, že by tam bylo pár zbytečných výkonnostních propadů :-/.
Zdar Max

Měl jsem sen ... :(

19.5.2020 14:25 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

obávám se, že by tam bylo pár zbytečných výkonnostních propadů

IMO je jedno, na které vrstvě se ten checksum udělá, takže spíš záleží na konkrétní implementaci

Quando omni flunkus moritati

19.5.2020 16:28 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Dělat checksum na úrovni FS je neúplné, když pod tím bude ještě další vrstva, která to dělat nebude (3rd raid řadič). Pokud použiješ mdadm s integrity, tak budeš dělat checksumm 2x, protože na btrfs tuto kontrolu vypínat nemůžeš.
Zdar Max

Měl jsem sen ... :(

19.5.2020 16:48 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Dělat checksum na úrovni FS je neúplné, když pod tím bude ještě další vrstva, která to dělat nebude

Neúplné v čem? Cílem je rozpoznat/opravit poškození dat a k tomu checksum na úrovni FS přece stačí, ne?

Quando omni flunkus moritati

19.5.2020 18:01 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Pokud je btrfs nad mdadm / jiným druhem pole, tak nemá k dispozici opravná data. Chybu tedy detekuje, ale už jí nemá podle čeho opravit.
Zdar Max

Měl jsem sen ... :(

19.5.2020 18:11 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Nerozumim - btrfs dělá checksumy jenom na detekci chyb, ale ne na opravu chyb?

Asi bych to vzal od začátku: btrfs je nad jiným druhem pole, konkrétně na jednom disku. Checksumy dat nefungují a aby začaly fungovat, musím mu dát druhý disk?

Quando omni flunkus moritati

19.5.2020 19:09 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Checksumy jsou jen nějaké kontrolní součty dat. A pokud ti checksum řekne, že na ty data nesedí, tak jak ty data opraví? Musí vzít někde jejich záložní kopii, na kterou ty checksumy sedí. To znamená, že by jsi měl v rámci btrfs provozovat jednu kopii dat i metadat (zlými zlořečníky nazývanou raid1). Tu ale nemáš, protože redundanci řešíš na úrovni pole (hw raid). A tuto nižší úroveň btrfs nevidí.
Zdar Max

Měl jsem sen ... :(

19.5.2020 21:19 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Jo takhle, já to bral tak, že to jsou checksumy typu, že umí menší chyby opravit a větší aspoň zjistit - tj. ekvivalent toho, co dělají HDD interně. Jestli je to jenom něco typu SHA256, tak to pak jo, v takovém případě skutečně není podle čeho opravovat. Nicméně btrfs nemusíme brát jako etalon správné implementace - na desktopové nasazení jsou takovéhle checksumy IMO dost k ničemu

Quando omni flunkus moritati

19.5.2020 21:29 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Používá crc32c a další info.
Zdar Max

Měl jsem sen ... :(

19.5.2020 23:03 marbu | skóre: 31 | blog: hromada | Brno
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

I když se v brtfs používá crc32c, není možné vzhledem k velikosti bloku nic dopočítat. Ale i tak to je na desktopu s jedním diskem užitečné: v případě, že ti začne odcházet disk si toho včas všimneš (z vlastní zkušenosti), a jako bonus přesně víš která data ještě máš a která ne :), což se může hodit při obnovování zálohy na novém disku. Druhá věc je, že btrfs ukládá všechny metadata bloky dvakrát, takže i na jednom disku lze narazit na případ kdy btrfs podle výsledku scrubu něco opraví (jemně to zvyšuje odolnost naboření fs).

There is no point in being so cool in a cold world.

20.5.2020 00:15 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Jak to říct... jsou tu tací, co tuhle funkci předkládají jako obrovskou výhodu btrfs, tak jsem čekal trochu víc. :-)

Quando omni flunkus moritati

20.5.2020 00:34 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Obrovská výhoda je v tom, že víš, že je něco špatně a víš, co konkrétně je špatně. A pokud jedeš ještě jednu kopii dat, tak si to i opravíš. S ext3/4/reiserfs/ntfs apod. nic takového ani nezjistíš.
Mně to tedy přijde jako hodně velká výhoda.
Zdar Max

Měl jsem sen ... :(

20.5.2020 10:53 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

S ext3/4/reiserfs/ntfs apod. nic takového ani nezjistíš.

Jednoho krásného dne se podívám na to dm-integrity a uvidí se, jak to nezjistím :-)

Quando omni flunkus moritati

19.5.2020 15:36 j
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Vazne nevim proc sem kreteni jako ty vubec lezou. ZFS prakticky vubec nikdo nikdo nepouziva.

Zato cache pouziva naprosto kazdy zarizeni ktery existuje, coz ovsem dement jako ty nemuze tusit.

A uz vubec nemuze negramotnej dement tusi jak fungujou radice s baterkou ze? Jeste sem nepotkal takovej, kterej by jel v jakkoli degradovanym rezimu kvuli nabijeni baterky ... jednoduse proto, ze to by soudruhu ten stroj musel chcipnout, coz se muze stat leda kokotum jako ty ktery ho zapojej bez UPS. Nomalni lidi totiz maji UPS a ta ten stroj korektne vypne tudiz v cache nezustanene kupodivu NIC a baterka se vubec nepouzije.

---

Bezte s tim guuglem dopice!

19.5.2020 16:26 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Prosím tě, vyjadřuj se slušně. To, že mluvíš sprostě a věci zobecňuješ tvým argumentům moc nepomáhá ;-)

.
Tak aspoň napiš, co spravuješ ty, s čím máš zkušenosti.
Zdar Max

Měl jsem sen ... :(

19.5.2020 16:51 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Já bych tu snůšku blábolů teda neoznačoval jako argumenty... jenom ta googlí captcha mě vždycky potěší, že aspoň zjevně jednomu spammerovi zaškodí.

Quando omni flunkus moritati

19.5.2020 19:48 alkoholik | skóre: 40 | blog: Alkoholik
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Dalsi j-blabol.
Ty jsi jenom poradne nemonitoroval HW, protoze battery learning/charging je pomerne bezny stav.

19.5.2020 16:29 j
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

"Proč vznikly cache na řadičích? Protože to byla a je výkonnostní záplata pro hloupé systém ..."

Skoda ze to neni zaplata na hloupy lidi ...

FS sam o sobe nemusi vubec tusit jak funguje zarizeni, se kterym pracuje. Radic ma ulozisti mnohem bliz, proto je kupodivu cache na jeho urovni pro spoustu uziti mnohem efektivnejsi.

A zase kupodivu ... zazrak prirody, pouziva se i cache na urovni jednotlivych disku. Protoze zase plati, ze ani radic nemusi nic vedet o skutecnym usporadani uloziste, ktery je k nemu pripojeny.

A opet, protoze jak vidno nekteri vcetne tebe vubec netusi ...

Baterka je tam POUZE a VYHRADNE proto, kdyz ten stroj bez dalsiho chcipne (na discich samotnych je to reseny nejakym kondikem, kterej staci na to aby se cache vyklopila na disk). Jinak se VUBEC nepouziva. ... ale jo urcite je MNOHEM vyhodnejsi, kdyz ten stroj (bez ty hnusny HW cache) chcipne, vsechno v ramce ZMIZI, a tudiz jsou v PICI i vsechna data (coz je mimochodem PRESNE to, co se na ZFS realne deje, presne proto jsou vsude upozorneni, ze tam musi byt UPS a ze se nesmi dopustit aby to chciplo, obdobne to pak samo plati i pro btrfs, jen to vypada, ze jeho tvurci s takovou situaci precijen pocitaji o dost vic).

Protoze milej zlatej, cache ktera nepotvrzuje zapis je cache k hovnu, ze? Protoze pak musis cekat, az ti zapis potvrdi ten pomalej disk ze?.

Naprosto vtom pripade ale nechapu, proc tu pises o vecech, o kterych zhola nic nevis?

Ad btrfs, to jako ze btrfs nezvladne 32 disku? Nebo jak to mam chapat? Kdyz teda pominu, ze kapacitne se to da poskladat z mnohem mensiho poctu.

BTW: Sem zvedav, jak dlouho se korektne ukoncuje filesystem, kterej zabira stovky GB ram. Rek bych, ze se to do tech +- 15 minut coz je tak limit jak dlouho bezne drzej upsky, nemuze vejit.

BTW2: Ty tvoje hracky asi budou nejaky samodomo bastly, ze? Na svych hrackach umim vymenit vlastne cokoli ... za chodu. Nejen baterky ... ale klidne radic. Vlastne dokonce i na tech hrackach, ktery nejsou primarne ulozisti ... muzu klidne celej stroj proste vypnout ... a zadna odstavka se nedeje. Neco delas spatne. Specielne kdyz mluvis o "produkcnim nasazeni". Ostatne, zrovna vcera sem normalne za chodu postupne restartnul 10 stroju ... a nikdo si ani nevsim.

BTW3: Po 5 letech se vyhazuje (kupodivu preventivne) celej HW, takze nejaka chcipla baterka me fakt dojme ...

---

Bezte s tim guuglem dopice!

19.5.2020 17:57 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

1) Zatím jsem se setkal jen s řadiči, které cache na diskách vypínaly. Prostě koupíš disky s cache, dáš je do řadiče a ten jim tu cache deaktivuje, aby si to mohl celé řídit sám pomocí svý vlastní cache zálohovanou baterií. Takže tvé zmínce o výhodnosti cache na diskách moc nerozumím. HBA řadič pak samozřejmě nic takového nedělá.

2) Pokud jde o kešování, tak OS/FS ví nejlíp, co kešovat, může dělat i dopředné kešování. 3rd shit na úrovni blokového zařízení toto neumožňuje, nemá o tom ani páru. Stejně tak lze držet v cache celistvá data, to řadič nepozná, co je třeba celý soubor a co ne, protože zná jen bloky. Já jsem tedy příklad pro výhody cachování v rámci OS/FS uvedl, mohl by jsi zmínit nějaký příklad ty, ve kterém má cache na řadiči navrh? Píšeš "spoustu uziti mnohem efektivnejsi.", takže asi těch příkladů máš hodně, můžeš tedy nějaký napsat?

3) Pokud jde o výpadek proudu u ZFS, tak nesouhlasím, výpadek proudu nevadí a nevím, proč by vadit měl? Sync zápisy se zapisují přímo, nebo přes SLOG (tedy rychlé ssd), kterému ale výpadek proudu neuškodí a zálohovaný baterií být samozřejmě nemusí.
Pokud jde o zápisy v ram, tak když se neprovedou, tak nejsou provedený a nejsou ani potvrzený, no problemo. V čem ty konkrétně ten problém vidíš?
A k problému by nemělo dojít ani u jiných rozumných FS. Nastuduj si, co jsou to bariery a pak pochopíš, jak to reálně funguje.

4) Funkci baterie u řadičů tu myslím všichni chápeme. Každopádně na jedné straně argumentuješ tím, že výpadek nemůže nastat, protože vše je zálohováno velkou baterií, poté ale napíšeš, že běžně to na bateriích vydrží 15min. My máme baterie, na kterých servery dokážou běžet v řádu hodin a když štěstěna přeje, dostaneme se do dvoumístných čísel počtu hodin. Každopádně zpět k problému, server ti může crashnout v pohodě i bez napájení. Setkal jsem se s tím u HP i IBM. buď za to mohli pitomosti jako vadný panel s diodama, nebo pak i chyby ve firmware řadiče, tj. hw problémy.

5) btrfs zvládne 32 disků, ale zvládne 32 disků při zachování podobné diskové redundance?

6) storage server se naposledy vypnul asi do 5min

7) Mít virtualizační cluster a otáčet si hw podle potřeby není nic světoborného, to máme samozřejmě také. Pokud provozuješ nějaký clustorový FS, tak otáčení jednotlivých node patří mezi samozřejmé fce, to snad nikoho nepřekvapí. My clusterový fs neprovozujeme, ale postupně k tomu směřujeme. Storage zatím jedeme v HA active/pasive. V rámci risk managementu nám to zatím vychází ok.
Pokud máš nějaký hw pole od nějakého vendora, tak se většinou jedná o dva servery v jednom šasi nastavené jako cluster. Vyndáním "řadiče" se vlastně vytrhne jeden node toho clusteru dvou serverů. Rychlost převzetí kontroly nad polem druhým serverem je otázkou toho, jak je to pole vytížené.

Zdar Max

Měl jsem sen ... :(

21.5.2020 12:12 hefo
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

3GB/1TB dat je v případě duduplikace, což se moc nepoužívá (není moc nasazení, kde to dává smysl).

Nič proti, ale pokiaľ sa to správa tak mizerne, ako si uviedol v článku, tak to nielen že nedáva zmysel, ale tá deduplikácia by sa ani nemala uvádzať medzi vlastnosťami toho FS, nanajvýš niekde v TODO.

21.5.2020 19:04 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Je to jasně zdokumentovaný a jsou případy, kdy to smysl dává a vyplatí se to. Nevidím důvod tu fci nějak skrývat, jak naznačuješ.
Když něco nasazuji, tak si jednak pročtu dokumentaci, dále si to před ostrým nasazením otestuji.
Zdar Max

Měl jsem sen ... :(

Díky za zajímavý post. Koukám, že musím aktualizovat ty zfs tooly. Můj arcstat nezná -a a bez něho vrací jen

    time  read  miss  miss%  dmis  dm%  pmis  pm%  mmis  mm%  arcsz     c
13:18:57    44     4      9     4    9     0    0     4    9   179G  180G

Moje zkušenost s DEDUP - až na velmi specifické usecase nebrat. Nestojí to za hlavobol. A to mám 256GB RAM na 24TB RAW kapacity.

Můj pool přežil už vadný diskový řadič, vadný napájecí káblik, který v náhodných intervalech způsoboval reset 2 disků v poli, 2 migrace mezi počítači, při upgradech, výměnu vadného disku a celkově značně hrubé zacházení typu přehození disku za chodu do jiného šuplíku kvůli výměně ventilátoru. Nesmrtelna věc ;-)

20.5.2020 14:17 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Mno, právě jsem se dozvěděl, že mi rozšiřování pole neprošlo :-/ ... prej mám koupit nový :). Takže asi půjdu podobnou cestou jako nyní, aktuálně koukám po tomto :

Amd EPYC2 Rome (SPA3 LGA) 7302P - 3GHz, 16core/32thread,
H12SSW-iN S-SP3(225W), WIO, 2GbE, 8DDR4-3200, 16sATA, 2M.2, IPMI
8x 32GB 3200MHz DDR4 ECC Registered 2R×4, LP(31mm), Samsung (M393A4K40DB3-CWE)
LSI TriMode 9400-8i8e(3416) SAS3/NVMe HBA(JBOD) 2×8643,2×8644,exp:1024HD/24NVMe,PCI-E8 g3,MD2,SGL
2x Intel Optane SSD 905P Series 480GB
SC847BE1C-R1K28W 4U WIO 24+12 sATA/SAS3 (SAS3 exp.),2SFF, rPS 1280W (80+ PLATINUM)
3r NBD on-site
34x 6TB WDC Ultrastar 7K600/HC310 - 7200rpm, SAS3, 512e, 256MB, (SE), P3, 3,5" SAS

Takže navýším kapacitu pole z 96TB na 144TB, SLOG budu mít v mirroru a přejdu na SAS disky.

Jinak aktuální stav toho PCI-E Optane je:

root@storage:~ # nvmecontrol logpage -p 2 nvme0
SMART/Health Information Log
============================
Critical Warning State:         0x00
 Available spare:               0
 Temperature:                   0
 Device reliability:            0
 Read only:                     0
 Volatile memory backup:        0
Temperature:                    318 K, 44.85 C, 112.73 F
Available spare:                100
Available spare threshold:      0
Percentage used:                0
Data units (512,000 byte) read: 29
Data units written:             198421208
Host read commands:             494
Host write commands:            1095760618
Controller busy time (minutes): 878
Power cycles:                   4
Power on hours:                 2059
Unsafe shutdowns:               0
Media errors:                   0
No. error info log entries:     0
Warning Temp Composite Time:    0
Error Temp Composite Time:      0

Takže Optane by už za sebou mělo mít : 96,6TB zápisu, pěkný.
Zdar Max

Měl jsem sen ... :(

20.5.2020 18:25 MarV | skóre: 11
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Ahoj, zaujala mě nízká hodnota "Data units read". Znamená to, že se 96TB zapsalo a pouze 14MB přečetlo?

20.5.2020 20:10 Michal
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

To nemusí být daleko od pravdy, za normálních okolností se do SLOGu pouze zapisuje. Čte se z něho pouze ve dvou případech 1) počítač padl dříve, než se stihla data zapsat na datové disky 2) přišel najednou tak velký burst zápisových IOPS, že přeplnil ARC cache dříve, než se odtamtud stihla zapsat na datové disky.

21.5.2020 20:48 MarV | skóre: 11
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

OK dík za info

21.5.2020 11:27 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Je to tak, jak píše Michal. Jinak když ten zápis převedu na DWPD (Drive Writes Per Day), tak jsme na nějaké hodnotě :

97TB
85dní
= 1,2TB/den
DWPD: 2,5

Optane 900P/905P 480GB má max DWPD 10, takže v průměru se do toho dá vejít naprosto v klidu. Pokud jde o top v nějaký den, tak bohužel statistiku nemám. Zkusím si před big zálohou přečíst hodnoty a po big záloze také a uvidíme. Pokud nezapomenu, tak provedu a hodím to sem.
Nicméně je z toho patrné, že běžné serverové SSD s DWPD 5 by na toto oficiálně asi nestačily (protože občas nějaký peak v zálohování).
Zdar Max

Měl jsem sen ... :(

21.5.2020 11:34 alkoholik | skóre: 40 | blog: Alkoholik
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Beznym serverovym SSD se bohuzel o DWPD 5 ani nezda. Horsi mivaji kolem 1, lepsi 3.

21.5.2020 12:08 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Tak jsem to našel, viděl jsem to u Micronu 5200 MAX (5200_series_product_brief.pdf) a jsou to poněkud levná TLC SSD.
Jinak máš pravdu, většinou mají 1-3DWPD.
Jak moc je ten Micron seriozní nevím :-/, třeba ta fce "Flex capacity" tomu DWPD moc důvěryhodnosti nepřidává :).
Zdar Max

Měl jsem sen ... :(

21.5.2020 12:52 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Hm, to mají i jiní výrobci a občas o tom ani neví - tak jsme ten 960GB SSD, co o sobě najednou začal tvrdit, že má kapacitu 960MB, vyreklamovali.

Quando omni flunkus moritati

21.5.2020 12:57 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Smutný je, že takové věci většinou odchází na pozadí bez toho, aniž by ten SSD něco hodil do SMARTu, jeden den ok, druhý den 2MB kapacita disku (ale to s těmi 2M byla chyba v Intel firmware) :-/
Zdar Max

Měl jsem sen ... :(

21.5.2020 13:50 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

No jo, ono to s programátory firmwaru disků bude podobné jako s programátory biosů: funguje to? šup s tím do výroby. Na věci, co by bylo dobré, aby ten firmware taky uměl, není čas.

Quando omni flunkus moritati

Nikde jsem v úvodním příspěvku a diskusi pod ním nenarazil na slovo "update". V jakém režimu (pokud) se u takovéhoto řešení aplikují update (rozuměj aktualizace OS zahrnující implementaci FS) s ohledem na případný negativní dopad na kompatibilitu/konzistenci_dat/funkčnost/výkon?

7.6.2020 15:42 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Je to uděláno naprosto parádně. Aktualizace oznamuje web ksicht a přes něj je můžeš nainstalovat + si můžeš nastavit, zda chceš být ve stable větvi, nebo beta větvi. Taktéž není problém je stáhnout a nainstalovat ručně z cmd.

Každý update vygeneruje snapshot OS a pokud se ti něco nelíbí, není problém na pár kliků myší přejít na předchozí verzi OS (je to tedy otázka jednoho rebootu).
Pokud jde o ZFS, tak ten se neaktualizuje automaticky. Web ksicht tě jen upozorní, že nový OS podporuje nové fce ZFS a zda chceš udělat aktualizaci poolu (ZFS). Dále tě upozorňuje, že se jedná o nevratnou věc a aby jsi to pečlivě zvážil.

Reálně tedy postupuji tak, že aktualizuji OS a pokud po několika týdnech nenarazím na problém, provedu i update ZFS poolu (pokud je k dispozici).

Dále je možné udělat backup nastavení (export do jednoho file). FreeNAS pak umožňuje takový export znovu importovat. Pokud ti tedy z nějakého důvodu padne HW (všechny disky), na kterých máš OS, tak obnova je celkem easy, prostě nainstaluješ freenas a importneš nastavení a hotovo.

Zdar Max

Měl jsem sen ... :(

7.6.2020 15:46 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Jinak za celou dobu, co FreeNAS používám, jsem nenarazil na problém, resp. jsem narazil na jediný : FreeNAS Corral končí, všichni downgradujte.

Tato slepá větev byla unstable (samba dělala problémy) a vrácení se zpět na původní starou větev nebyl pro mně problém.
Pokud jde o styl aktualizování, tak když vyjde nová major, nedělám hned update a čekám vždy na nějaký fix realase U1/U2 apod.
Zdar Max

Měl jsem sen ... :(

7.6.2020 16:37 PetebLazar | skóre: 35 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Díky za objasnění a doplnění.

V návrhu Vašeho nového pole je mezi komponentami navržen jako CPU EPYC Rome (7302P). Jak je na tom dnes FreeNAS(potažmo spíše FreeBSD) z hlediska podpory vlastností/výhod/omezení této chipletově-orientované architektury? Existuje nějaké výkonostní srovnání pro ZFS s běžnými XEON-based řešeními?

7.6.2020 17:05 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Neřešil jsem benchmarky. Na AMD přecházím, protože je na tom lépe poměr cena/výkon a nejsou pro něj aktuálně známy tak fatální (z hlediska ztráty výkonu) bezpečnostní chyby jako u intelu. To jest důvod, proč na téměř všech polích po nějakých 20 letech přecházíme na AMD.
Ještě se ve vzduchu vznáší přechod z HP na Supermicro. Důvodů je více, možná se o tom někdy rozepíši.
Zdar Max

Měl jsem sen ... :(

7.6.2020 17:37 PetebLazar | skóre: 35 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Snad SuperMicro doprodá H11DSi-NT-B rev.2.0 a dočkáme se tak obnovení nabídky E-ATX Dual SP3 (s PCIe 4.0).

7.6.2020 19:09 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Mluvil jsem s jedním z dodavatelů a první desky by měly přijít asi za dva měsíce.
Ale na to nechci čekat, protože včera už bylo pozdě.
Zdar Max

Měl jsem sen ... :(

7.6.2020 21:40 PetebLazar | skóre: 35 | blog: l_eonardovo_odhodlani
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Další dva měsíce? To už se z "Čekání na Godota"(PCIe4.0/DDR4_3200MHz) může už klidně stát čekání na Milana(Zen 3). Skoro 3/4 roku od uvedení CPU se stále čeká na širší dostupnost MB s podporou jeho nativních schopností. :-(

No co, ceny komponent jsou teď takové, že asi není kam se hnát (pokud to tedy není jako ve zmíněném případě nezbytně nutné).

8.6.2020 08:15 Max | skóre: 72 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: ZFS : Stavba a zkušenosti se ZFS storage

Já mám nasazení, kde to nevyužiji, takže mně to zatím netrápí.
Zdar Max

Měl jsem sen ... :(