Portál AbcLinuxu, 2. května 2025 05:53
Mno, hodil by se nějaký rychlý storage na zálohy všech VM ve firmě + jejich historie. Zároveň by sloužil i jako záloha pro file servery s historií. Do základu by to chtělo tedy kapacitu / výkon pro backup :
Není to tak, že bychom nezálohovali, ale myslím, že je čas pokročit o stupínek výše a začít zálohovat více na úrovni a případně snížit časy obnov, které teď nejsou nic moc.
Máme ve firmě různé NASy, kam dáváme zálohy. Také máme pro zálohy dvě externí pole. Jedno je MSA P2000G3 iSCSI a druhý je ještě levnější, MSA P2000G3 SAS verze. Tzn., že jsou to pole, jejichž cena je kolem 140 000,-Kč bez DPH a bez disků s tím, že SAS verze vyžaduje připojení k nějakému serveru pomocí HBA, konkrétně HP SC08e. Pole jde škálovat, ale SAS verze má drahé disky, SATA verze zase neumožňuje připojit disky větší jak 2TB (přitom SAS verze s tím problém nemá).
Ve firmě používáme HP servery, převážně řady Proliant DL380, aktuálně máme mj. několik G8 verzí. Pro kamerový server jsem protlačil do firmy Supermicro jako levné, ale serverové řešení. Musím říci, že princip supermicra se mi líbí. Prostě poskládej si svůj server, jak ti nejvíce vyhovuje. Vše je serverové železo, má to kvm, v základu celkem dobrý řadič a parádní skříně. První myšlenky tedy směřují k tomu, založit storage právě na supermicru.
Kdyby do budoucna nestačila kapacita, lze server rozšířit o storage expander, např. takto :
Zajímavé počtení :
External SAS/SATA Disk Chassis Wiring – Part 1
External SAS/SATA Disk Chassis Wiring – Part 2
Tak samozřejmě, že kvůli ceně SATA disky. Pokud by to mělo sloužit jako odkladiště dat s velmi rychlou možností obnovy dat zpět do produkce, tak by to měly ustát klasické WD RE4 - 4TB - cca 6000,-Kč bez DPH.
Do začátku by stačilo koupit 13x4TB disky = RAID10 = 24TB pole s jedním diskem jako spare.
A proč zrovna WD RE4? Protože vychází z WD seznamu, který jsem rychle splácnul, nejlépe (je mimochodem docela masakroidní, tolik typů hdd, to jsem netušil) :
Označení | MTBF | RPM | Cache | Velikost | Rozhraní | Max. Kapacita | Funkce | Záruka | Určení |
WD Black - PDF | 7200 | 64 | 3,5" | SATA | 4TB | VCT,StableTrac,NoTouch,CPT | 5 | Výkonný desktop | |
WD Red - PDF | 1mil | IntelliPower | 16 & 64 | 2,5" & 3,5" | SATA | 6TB | TLER,RAFF,PMR,StableTrac,NASware3.0,3D Active Balance Plus | 3 | NAS 1-8 |
WD Red Pro - PDF | 1mil | 7200 | 64 | 3,5" | SATA | 4TB | TLER,RAFF,PMR,StableTrac,NASware3.0,3D Active Balance Plus | 5 | NAS 1-16 |
WD AE | 500tis | 5760 | 64 | 3,5" | SATA | 6TB | NoTouch,3D Active Balance Plus | 5 | Archivační |
WD VL - PDF | 1,4mil | 10000 | 64 | 3,5" | SATA | 1TB | RAFF,NoTouch,PWL | 5 | Výkonné prac. stanice |
WD Purple - PDF | 1mil | IntelliPower | 64 | 3,5" | SATA | 6TB | TLER,ATA,AllFrame | 3 | Kamerové systémy |
WD SE - PDF | 1-1,2mil | 7200 | 64 & 128 | 3,5" | SATA | 6TB | TLER,RAFF,NoTouch,fly height,StableTrac | 5 | Datacentra - škálovatelnost |
WD RE - PDF. | 1,2 - 1,4mil | 7200 | 32 & 64 & 128 | 3,5" | SATA & SAS | 6TB | TLER,RAFF,NoTouch,fly height,StableTrac | 5 | Datacentra - výdrž |
WD RE+ - PDF | 1,2mil | 5760 | 128 | 3,5" | SATA | 6TB | TLER,RAFF,NoTouch,fly height,3D Active Balance Plus,StableTrac | 5 | Datacentra - výdrž |
WD XE - PDF | 2mil | 10000 - 15000 | 32 | 2,5" & 3,5" | SAS | 900GB | TLER,RAFF,NoTouch,fly height,StableTrac | 5 | Datacentra - výkon |
WD má někde napsáno to, jinde zase ono. Datasheety něco říkají, ale web, nebo přehled na webu zase něco jiného, viz např. : Pevné disky pro datová centra
The difference between WD Xe, Re, Se, Purple and Velociraptor Drives solved
WD for Desktop Comparsion
WD Black vs. WD RE
RE je z těchto variant určen do toho nejnáročnějšího. Dělá se dokonce i v SAS verzi, což vychází na cca 7500,-Kč bez DPH. HP SAS 4TB 3,5" stojí 12 000,-Kč bez DPH, což je celkem značný rozdíl.
Každopádně SAS se mi zdá zbytečný, resp. bych použil SAS verzi disků v případě, že bych chtěl řešit failover v rámci řadiče (tzn. DualPort), což si myslím, že je zbytečné.
Taktéž se říká, že větší, jak 2TB disky nemá cenu v poli používat (pomalé přepočítání pole, vyšší náchylnost na chyby apod.), ale osobně si myslím, že to je věc minulá a např. pro takovéto použití by to nemělo představovat problém.
A proč WD? Mno, je to o subjektivních preferencích, takže pls. no flame.
Dále spousta firem dospěla k názoru, že se více vyplatí ty nejlevnější disky, viz :
NetApp Weighs In On Disks
What Hard Drive Should I Buy?
Google’s Disk Failure Experience
Delame servery, jak to v enterprise nenajdete - dil II.
Jenomže to jsou velké farmy, kde je přetěžování disků běžné a střídání jak na běžícím páse celkem normal. Nemyslím si, že by to byl náš případ a nemyslím si, že budeme ty disky tak přetěžovat, aby odcházely, proto bych šel do zlaté střední cesty, tzn. nic drahého, ale zároveň nic levného. To myslím WD RE splňuje. Navíc je celkem rozumně dostupný oproti jiným variantám. Jinak osobně mám zkušenost s HP serverem, kde byly kvalitní HP SAS 2,5" disky a server byl značně diskově vytížen a ty disky šly jeden po druhém jak na běžícím pásu. Vyplatil se nám zaplacený carepack mnohanásobně. Šlo o HP SAS 300GB 10k DP v RAID5.
RAID5 je ošklivý, náročný, nikomu se moc nelíbí. RAID10 je výkonný a relativně stabilní a může v něm odejít až n/2 disků a pole to ustojí. Na druhou stranu, mohou v něm odejít nevhodné dva disky a pole chcípne (pokud se pole skládá z (1+1 = RAID1) + (1+1 = RAID1) = RAID0 ). Skládat RAID10 z RAID1, které mají 3 disky, to je ukrutně drahá sranda. Myslím si, že 12ks 4TB disků v jednom poli je rozumná mez, přes kterou nejít. Tzn., že jít cestou, kde budu mít na storage více 24TiB polí (a ty pro jistotu nespojovat, nebo spojovat, ale jen v rámci btrfs). Další variantou je mít nějaký RAID10 a nějaký RAID třeba 60 (pro zálohy, které nebudou generovat IOPS a budu si jich více cenit).
Taktéž je třeba počítat s tím, že v případě použití mdadm nevytvářet pole přes celé disky, ale vytvářet jednotně velké partition na diskách a na nich potom pole, aby se nestalo, že nový disk / jiná značka apod. bude mít menší velikost a nepřidám jej do pole.
Mám tyto možnosti :
Mdadm mi oproti hw raidu přinese vyšší kontrolu nad celým polem + lepší přenositelnost mezi řadiči, ale třeba výměna disku pak není úplně easy jako u hw řadiče.
FreeBSD nemá cenu řešit, protože jednak mám více zkušeností s linuxem, dále si myslím, že je na tom KVM na linuxu mnohem lépe.
ZFS on linux - mám pochyby o podpoře a stabilitě a je nutná údržba (osobně preferuji distribuční řešení, aby do budoucna bylo méně práce, tzn., že bych nerad něco kompiloval a hlídal si víc a víc věcí, abych případným upgradem něco nepokajdil)
Zbývá tedy čistě btrfs, nebo hw/mdadm raid+lvm+fs. Když bych chtěl snížit režije případných běžících VM, tak bych měl použít VM v rámci LVM.
Nejlépe si mi jeví to, že budu mít RAID10 v rámci mdadm (kdyby to byl HP server, kterých máme tuny a dobrý support, tak bych nasadil HW RAID, ale přecijen toto bude trochu exot a těžko říci, jak to bude v budoucnu s řadiči), nad ním LVM. LVM si pak mohu rozkouskovat, něco pro KVM, něco pro btrfs na backupy apod. Jsem schopný oželet to, že by věděl btrfs o každém kousku hw, protože s HW RAID+LVM+FS získávám větší možnosti.
Naše HP DL380G8 už mívají 10GBase-T síťové karty. Storage popsaný výše má taktéž 10G karty. Obě lokality (produkci vs. backup) máme v současné době propojeny 2x 1Gbit optikou Single Mode. Tato optika by měla být schopná zvládnout i 10Gbit, stačí jen použít jiné switche s jinými miniGbic moduly. Hodně levně lze najít třeba řešení od Netgearu : Netgear XS712T-100NES, 12x 10GbE RJ45, 2x shared 10GbE SFP+. Dva takové switche a povýší se kompletní síťový serverový backend na 10Gbit lajnu. Do RJ45 by byly připojený servery pomocí CAT6/7 patch kabelů (3m dlouhé) a switche by byly propojeny optikou s nějakými OEM miniGbic. Original cisco, nebo HP miniGbic pro 10G stojí kolem 75 000,-Kč bez DPH. Každopádně v práci už nyní nakupujeme 1Gbit Single Mode OEM miniGbic, protože origo stojí kolem 8000,-Kč a OEM pro HP stojí do 1000,-Kč a zatím maximální spokojenost, ani jeden problém (OEM HP miniGbic používáme jak v ProCurve 2810,2510 switchích, tak v cisco SG300 switchích), resp. jeden problém nastal jednou, kdy na multi mode optice, která má značně přešvihlou maximální délku, nerozjeli 100Mbit OEM HP miniGBIC, ale origo HP ano, s ním lajna šla. Našel jsem OEM 10G miniGbic za cca 10 000,-Kč, což zní mnohem přijatelněji, jak 75 000,- :).
EVA4400, HP StorageWorks EVA4400 by se dal zařadit jako další konkurenci (co do funkčnosti, né do pohodlnosti ovládání) k navrhnutému řešení výše. Cena tohoto pole je údajně (AG637B) 135 000,-Kč bez DPH. Jak je vidět z popisu, má toto pole 4Gb Fibre Channel (4) Ports. Nicméně v základu nic neumí, na každou blbost je potřeba si koupit licenci, viz např. : EVA 4400 Software - Enterprise Select. Z toho některé licence vyžadují i dedikovaný server.
To samé platí o MSA P2000G3, taktéž je možné funkcionalitu rozšířit zakoupením sw licencní, viz : MSA Software - Commercial (E-LTU = elektronická licence - nedodají na papíře tak, jak je tomu u LTU).
Tím chci říci, že koupě pole + disků ještě nedělá konečnou částku. Je třeba započítat i případnou cenu licencí. Dále je potřeba počítat i s infrastrukturou. Je pěkné, když má člověk pole s FC, ale nemá ho kam zapojit, nebo má málo optických párů mezi lokacemi apod.
Tyto produkty mně tedy utvrzují v tom, že pro NAŠE potřeby jsou prozatím zbytečné a drahé.
Když bych to měl porovnat s externím pole HP MSA P2000G3, tak jsme na tom :
Toto je jen první nástřel/úvaha, který bych rád podrobil diskusi, nic víc. Máte tedy někdo zkušenosti s takovým nasazením, popř. s 10G sítí, popř. nějaké doporučení?
Tiskni
Sdílej:
podivej se na CEPH
Zřejmě jsem i zmeškal nějaké akce, viz : Přednáška SUT - OpenNebula a Ceph, prezentace viz : 20141126-Tomas_Kukral-Opennebula_a_CEPH.pdf
Zajímavé monitorovací řešení pro ceph je Calamari. K němu pak gui klient : Ceph Manager Clients, komerční app pak : Red Hat uvolňuje Inktank Ceph Enterprise 1.2, resp. Inktank.
Každopádně to vypadá, že je to řešení pro něco trochu víc rozsáhlejšího, než je prozatím v plánu.
Zdar MaxTaktéž se říká, že větší, jak 2TB disky nemá cenu v poli používat (pomalé přepočítání pole, vyšší náchylnost na chyby apod.), ale osobně si myslím, že to je věc minuláNedávno tady někdo linkoval článek, kde autor psal, že ani náhodou není. Něco jako RAID5 is dead, znělo to dost katastroficky, i když mojí zkušenosti to moc neodpovídalo. Nicméně u RAID10 se nic přepočítávat nemusí, takže u neaktivního pole resync znamená sekvenční čtení a sekvenční zápis. Pokud to ten druhý disk vydrží, tak ok.
Myslím si, že 12ks 4TB disků v jednom poli je rozumná mez, přes kterou nejít.24TB pole mi přijde trochu velké - nějak mám odpor vůči velkým filesystémům. A jestli tam bude LVM, tak víc menších polí a nad nimi LVM znamená lepší kontrolu nad tím, kde co je.
ZFS on linux - mám pochyby o podpoře a stabilitě a je nutná údržbaDoporučuju posledních pár dní outage-list vpsfree. Vypadá to, že se nakonec vývojáři ZFS on Linux společně s Pavlem Šnajdrem dopracovali k nějakému řešení, ale takhle se patlat s filesystémem, to bych opravdu nechtěl. (Samozřejmě je potřeba jedním dechem dodat, že to, co ZFS nabízí, se AFAIK na Linuxu jinak sehnat nedá.)
No, vzhledem k tomu, jak to ZFS mucime, se myslim da vcelku s klidem rict, ze v momente, kdy to pojede dobre u nas, se da nasazovat kdekoliv jinde. Malo kdo tem vecem dava tak zabrat, jako my s nasi zatezi. Blizime se, ale jeste to bude boj, bohuzel. Nechal jsem vseho okolo a zacal jsem se venovat ZFS naplno, sice puvodem fakt nejsem Cckar, ale ucim se za chodu
A jako side-note si musim postezovat, ze tak zbaveny iluzi, co se tyce Linuxu, jsem jeste nebyl. Dokumentace k vnitrnostem jadra veskera zadna (ostatni unixlike systemy maji na vsechny podstatne veci man pages). Dlouhodobe neresene problemy s fragmentaci SLABu, kdy Chris Lameter navrhoval reseni uz v roce 2007, jeho patchset 15x(!!) prepsal, aby utesil stezovatele na LKML, nicmene prijato do upstreamu to nebylo. I to je z casti duvod, proc se ZFSonLinux tolik bojujeme.
Skoda, ze neexistuje zadne general-purpose distro Illumosu. Linux IMHO na server proste neni dobra volba. A to rikam jako byvaly nejvetsi nadsenec a zastance Linuxu, nez jsem se podival pod kapotu a vystrizlivel.
Dokumentace k vnitrnostem jadra veskera zadna (ostatni unixlike systemy maji na vsechny podstatne veci man pages).Njn, to je ta slavná katedrála a bazar. Lidi, co s vnitřnostmi jádra pracují, tu dokumentaci nepotřebují, tudíž nepíšou. Lidi, kteří ji potřebují, ji neumí napsat. Krom toho se ty vnitřnosti a zejména rozhraní uvnitř jádra dost mění, takže tipuju, že i kdyby někdo nějakou dokumentaci napsal, tak se velice rychle rozjede od skutečného stavu.
Linux IMHO na server proste neni dobra volba.Záleží na tom, co se s tím dělá. Pod kapotou to možná vypadá ošklivě, ale na druhou stranu s distribučními jádry (tj. vanilla + pár patchů) bez out-of-tree věcí to funguje docela spolehlivě.
Njn, to je ta slavná katedrála a bazar.To je dobra pointa, nenapadlo mne se na to podivat z tehle stranky. Ale napr. FreeBSD ma ty man pages taky
Linux IMHO na server proste neni dobra volba.
Naštěstí je dost firem, které si myslí opak. Takže nezbývá než doufat, že to tu nečtou a váš příspěvek jim tudíž neotevře oči. :-)
Akorat jsem dneska zahlidnul tweet, kterej to krasne shrnuje za mne.
https://twitter.com/FlorianHeigl1/status/578300168497459200zfs->btrfs
crossbow->ovs
dtrace->[several]
containers->containers
smf->systemd
pattern:
Groundbreaking -> shit clone.
Linux se snazi featurove uz peknych par let dohnat Solaris, ale nedari se a darit se ani nemuze, protoze na to by byl potreba systemovy pristup s pohledem "zeshora", coz se proste nedeje. Navic, vetsina tech featur je okoukana z hi-level popisu z man pages nebo Sun blogu a podobne, bez toho, aby se nekdo podival dovnitr, jak to funguje. Ne jednou jsem videl na strankach nejakeho linuxoveho projektu zminku "je to jako featura ABC ze Solarisu/Illumosu", ale vubec to nebyla pravda, protoze kdo to psal, nejspis vubec Solaris/Illumos nevidel a jenom o tom nekde cetl z druhe ruky.
Navic u toho kopirovani featur jdou akorat po tech featurach, ale temer systematicky ignorujou nejakou privetivost pro ty, pro ktere to vlastne delaji - sysadminy. Napr. manipulace s BTRFS v porovnani se ZFS. Nebo uprobes/systemtap vs. DTrace.
No, a ad. rozsirovani schopnosti blokovy vrstvy - minimalne u ZFS tohle mozny proste neni. Staci na to letmy pohled do zdrojaku . Tam bylo vyslovene cilem sprsknout vsechny ty vrstvy dohromady a pekne je vzajemne provazat, krom jineho taky proto, aby se nemuseli ptat nikoho okolo a mohli storage zacit resit poradne, bez toho, aby trvalo XY let pomenit neco, co uz je pomalu jak vytesane v kameni. Jak je slozity menit neco zabehnutyho v Linuxu konkretne viz. napr. muj comment o defragmentaci Linux SLAB cache. A neni to zdaleka jenom o blokovy vrstve, to si z tech zajimavych vlastnosti ZFS zas akorat vybiras jenom cast a ignoroval bys treba Adaptive Replacement Cache se vsim dalsim, co s ni souvisi.
pro ktere to vlastne delaji - sysadminy.Kéž by.
Napr. manipulace s BTRFS v porovnani se ZFS.Btrfs taky není hotová věc, narozdíl od ZFS. Teda aspoň doufám, že současný stav nepovažují za hotovo.
No, a ad. rozsirovani schopnosti blokovy vrstvy - minimalne u ZFS tohle mozny proste neni. Staci na to letmy pohled do zdrojakuNo jasně, protože hrát si na vlastním písečku je jednodušší. Ok, abych nekřivdil ZFS, tak do Solarisu, pro který se to vyvíjelo, nevidím a nemůžu tudíž soudit. Že se v ZFS on Linux spousta věcí duplikuje oproti kernelu, je pravda, ale taky je to vcelku pochopitelné - kdyby to tak nechtěli, museli by (hádám) přepsat polovinu kódu, který původně pro Linux není určen. Na druhou stranu co se btrfs týče, tak tam spousta věcí do kamene vytesaná není ani náhodou. Linux má velmi dobrou implementaci softwarového raidu, takže není potřeba cpát podporu do filesystému, stačilo vývojářům mdraid pomoci třeba s podporou discard. Určitě by pomoc neodmítli, zrovna tohle mají v roadmapě. Snapshoty umí device mapper, takže opět zbytečná duplikace - a v device mapperu je docela živý vývoj, takže taky pochybuju, že by odmítli, kdyby jim někdo chtěl pomoci s tím, aby ty snapshoty fungovaly dobře (AFAIK teď jsou pěkně pomalé, i když možná že s metadata device na SSD by to mohlo být lepší.) A takhle by se dalo uvažovat i o dalších vlastnostech těch nových filesystémů (checksumy třeba). Neříkám, že by se do nižších vrstev dalo natlačit všechno, ale spousta věcí jo. Tam bylo vyslovene cilem sprsknout vsechny ty vrstvy dohromady a pekne je vzajemne provazat, krom jineho taky proto, aby se nemuseli ptat nikoho okolo a mohli storage zacit resit poradne, bez toho, aby trvalo XY let pomenit neco, co uz je pomalu jak vytesane v kameni.
na to by byl potreba systemovy pristup s pohledem "zeshora", coz se proste nedeje.Ale děje, už jsem to psal. Vývojáři většinou blokují věci, které duplikují kód nebo by se špatně udržovaly. Bohužel většina z nich je na něčí výplatní pásce, takže když se náhodou víc firem shodne na jedné věci, kterou v kernelu chtějí, tak si nemohou moc vybírat a ten pohled zeshora spíš škodí. Někdo tady v téhle souvislosti nedávno zmiňoval openvswitch, který (AFAIK) v podstatě akorát zpřístupňuje síťové věci (bridge, tap device apod.) pod svým vlastním rozhraním. Tohle vůbec nemá co dělat v jádře, veškerou práci by to mohlo odvést v userspace, ale asi tady vyhrál ten "systémový přístup" firem.
Linux má velmi dobrou implementaci softwarového raidu, takže není potřeba cpát podporu do filesystému, stačilo vývojářům mdraid pomoci třeba s podporou discard.Až na to, že block device RAID a file system RAID nejsou záměnné, co do funkcionality.
kdyby jim někdo chtěl pomoci s tím, aby ty snapshoty fungovaly dobře (AFAIK teď jsou pěkně pomalé, i když možná že s metadata device na SSD by to mohlo být lepší.)Až na to, že device snapshoty a file system snapshoty jsou po technické stránce dvě zcela odlišné technologie a nakonec taky nejsou záměnné.
A takhle by se dalo uvažovat i o dalších vlastnostech těch nových filesystémů (checksumy třeba). Neříkám, že by se do nižších vrstev dalo natlačit všechno, ale spousta věcí joJenže architektura zfs i btrfs (i z toho mála, co o nich vím) je takto navržena úmyslně a právě proto, že na úrovni filesystému se dají dělat úplně jiná kouzla. Ani jeden z nich momentálně nepoužívám, takže vycházím především z toho konceptu samotného, který umožňuje prakticky libovolnou granularitu jak redundance, tak snapshotů. V případě blokového zařízení je granularita jenom jedna.
Někdo tady v téhle souvislosti nedávno zmiňoval openvswitch, který (AFAIK) v podstatě akorát zpřístupňuje síťové věci (bridge, tap device apod.) pod svým vlastním rozhraním.To jsem klidně mohl být i já. Jako kernelový laik jsem měl od začátku podezření, že je openvswitch jeden velký omyl. Ale nechěl jsem se do toho moc pouštět, dokud jsem neslyšel stejně mluvit i kernelové vývojáře, kteří do toho vidí.
Až na to, že block device RAID a file system RAID nejsou záměnné, co do funkcionality.Protože?
Až na to, že device snapshoty a file system snapshoty jsou po technické stránce dvě zcela odlišné technologieStejná otázka: proč? Vždyť je přece jedno, jestli si filesystém pamatuje, které bloky (soubory) jsou součástí snapshotu a tak se nemají odmazat, nebo jestli si to samé pamatuje device mapper.
právě proto, že na úrovni filesystému se dají dělat úplně jiná kouzla.Jaká a proč je nejde dělat v device mapperu nebo v mdraid?
bez spolupráce s filesystémem není způsob, jak zajistit už jen to, že bude obraz filesystému (a tedy i filesystém po rollbacku) konzistentní.Ale já přece neříkám, že to musí být bez spolupráce s filesystémem, ostatně pokud vím, tak když device mapper dělá snapshot na LV, na kterém je připojený filesystém, tak jako první volá freeze toho filesystému, tj. spolupráce s filesystémem je tam už teď. A taky neříkám, že filesystém by o snapshotech vůbec neměl vědět. To klidně může, ale už nemusí jejich podporu obsahovat ve vlastním kódu. A přitom by šlo i vybrat, co se má do snapshotu zahrnout a co ne - filesystému se řekne "udělej snapshot /usr", filesystém předá device mapperu instrukci "udělej snapshot těchto bloků" Samozřejmě - navrhnout rozhraní a dohodnout se na něm s někým tak, aby jej mohli používat i jiní, je mnohem těžší, než nandat duplicitní funkcionalitu do vlastního kódu. Proto říkám, že by to bylo groundbraking - že by někdo se někdo obtěžoval udělat věci pěkně místo snadno.
filesystém předá device mapperu instrukci "udělej snapshot těchto bloků"Zde se bavíme ale na teoretické úrovni, že, a bez nejmenší šance na srovnatelnou efektivitu.
bez nejmenší šance na srovnatelnou efektivituZase tvrzení, aniž byste řekl proč...
IMHO to neni tak lehke, jak se na prvni pohled muze zdat.Tak to určitě není, ale vývojářům se to zřejmě povedlo, když to ZFS má. A pokud jde alokátor bloků s dynamickou velikostí udělat ve filesystému, tak v device mapperu to přece musí jít taky. A alokace od filesytému by se pak změnila akorát z volání funkce ve vlastním kódu na volání funkce v jiném jaderném modulu.
Pridej checksumovani tech objektu s verifikaci pomoci hash-tree a muzeme pokracovat jeste chvili dalV device mapperu přece nemusí být všechno. Checksumování si filesystém klidně může nechat u sebe, protože si dovedu představit, že různé filesystémy ho budou chtít dělat různě, nebo třeba vůbec.
Ale, komu by se s tim chtelo psat, kdyz muze rovnou vzit a pouzit ZFSNo, pro začátek v Linuxu se rovnou vzít a použít ZFS nemůže, protože tam není. Že doinstaluj si sám má háčky, to jsi zjistil na vlastní kůži.
Bez argumentů je to jen výkřik do tmy.Vsak taky abclinuxu moc o jinem, nez o tech vykricich do tmy uz neni
Kdybych se o tom mel dohadovat z mistnich treba s Pavlixem, asi by to bylo o jinem.Teď nevím jak to myslíš. Já do kernelu běžně nesahám, kernelové zdrojáky neotevírám, pokud vyloženě nemusím, a rozhodně to nejsou ty od filesystémů. Obávám se, že jestli ti kvůli něčemu odepsal zrovna Michal, tak asi hlavně kvůli tomu, že si to bere osobně, což v mém případě nehrozí, ledaže bys do seznamu připsal nějaké síťové věci.
Osobně určitě ne, nic z toho, co bylo v tom tweetu, jsem opravdu nevyvíjel (nejblíž by k tomu asi měl OVS) - koneckonců téměř všechny mé dosavadní příspěvky do jádra jsou stejně bugfixy, ne nové featury. Ale když tady snajpa systematicky předkládá svou vizi, jak je Solaris strašně super a Linux v podstatě jen sbírka nepovedených napodobenin jeho featur, a hlavně když výslovně prohlásí, že Linux není na server dobrá volba, tak jsem pocítil potřebu upozornit, že tento názor není ani zdaleka univerzální.
Když se třeba podívám, jaké OS mají certifikaci pro SGI UV platformu nebo na čem běží SAP HANA, tak tam žádné zmínky o Solarisu nevidím. A nechce se mi věřit, že by zákazníci, kteří si mohou dovolit takováhle řešení, neměli na licenci Solarisu a proto se museli spokojit s tím údajně nepoužitelným Linuxem. Samozřejmě je tu pořád možnost, že jsou to všichni blbci a snajpa jediný tomu opravdu rozumí (pardon, ještě ten, kdo psal ten tweet), ale to ať si rozhodne každý sám, jak pravděpodobná mu tahle možnost připadá…
ale to ať si rozhodne každý sám, jak pravděpodobná mu tahle možnost připadá…A můžu si s dovolením vybrat třetí možnost, tedy že svět není černobílý?
Z hlavy mne ted napadaji treba dve veci, ktere mne docela stvou a ktere si myslim, ze uz pomalu tesane v kameni jsou a jinak nebudou:
Duraz je spis na akademickou spravnost kodu, nez na jeho realnou pouzitelnostCo to je použitelnost kódu? Kód buď funguje, nebo ne. A u Linuxu - opět, mainline - ten kód většinou funguje. I přes ty dlouho neřešené problémy, na které nejspíš ti, kdo nepoužívají out-of-tree kód, nikdy nenarazí.
Duraz je spis na akademickou spravnost kodu, nez na jeho realnou pouzitelnost, natoz aby se nekdo zamyslel o par cyklu dal, nad realnym uzivatelem tech technologii.
Takové příklady by se určitě našly, ale rozhodně bych to tak nezevšeobecňoval. Naopak, už jsem viděl spoustu patchů zamítnutých s tím, že teoreticky by to tak sice bylo lepší, ale kvůli nějaké okrajové záležitosti se další test do fast path (nebo další položka do struct sk_buff
přidávat nebude. I já už jsem do jádra posílal patch, který jsem sám považoval spíš za takový "ugly hack", ale byl nutný k vyřešení konkrétního reálného problému našeho zákazníka.
Ono zase, když použiješ méně disků, tak si snížíš výkon pole, protože nejde tu o souček výkonů, ale o to, jaký nominální výkon je pole schopno zlvádnoutNo jasně, když dám do pole míň disků, budu mít míň iops. Ale na druhou stranu zase budu mít víc polí (v součtu tedy stejně iops jako s jedním velkým) a lepší kontrolu nad tím, co pracuje s kterým polem. Jde mi o to, že se třeba nestane, že budu zrovna zálohovat dvě věci na jedno velké pole, ale ono se mi to se zápisy zrovna trefí na stejné disky, zatímco ostatní se budou flákat.
Sorry, né nominální, ale maximální.Tak to už je něco jinýho
chci, aby když bude potřeba, jsem z toho pole dostal data nejrychlejším možným způsobemJo, takhle to dává smysl - víc disků, větší propustnost
Jinak historie mně trochu vytrestala. Je třeba se už od začátku rozhodnout pro jednu značku, jeden typ, který je odzkoušen na provozovaných switchích, protože nejen, že některé gbic nefungují v některých switchích, ale také nemusí fungovat mezi sebou (cisco ckompatibilní v ciscu + hp kompatibilní v HP a spojení se neuskuteční, docela fail). Možná je to jen problém OEM gbic, a možná, že ne.
Výslovně jsem to neuvedl, ale je dost důležité vždy používat stejné optické transceivery na obou koncích optického vlákna. To, že moduly pracují na shodné vlnové délce a stejném standardu neznamená, že budou spolupracovat.
Ještě bych se přimlouval za nemíchání pojmů (mini-)GBIC/SFP a SFP+.
Mno, jasně, ale osobně netuším, jakým způsobem HP detekuje nekompatibilní SFP.
Naprosto jednoduše. Každý SFP nebo SFP+ modul obsahuje I2C EEPROM s identifikací. Switche pouze obsahují schválený seznam podporovaných transceiverů.
Není to ani tak drahé - disky pár stovek za kus navíc + druhá karta a konfigurace. Zkušenosti nemám, držím skladem jednu kartu navíc pro případ, kdyby někde zdechla. Sežere ti to ale PCIe slot při připojení dalšího řadiče.Jak je to pak udělané, ty řadiče se spolu domluví, nebo se do systému prezentuje jeden disk dvakrát a OS si s tím musí nějak poradit?
ISSN 1214-1267, (c) 1999-2007 Stickfish s.r.o.