Moje zkušenosti s bcache (diskuse)

Nedávno jsem zkoušel dm-cache na jádře 3.16 (Debian Jessie) a docela zklamání. Testoval jsem relativně primitivně - SQL bench na MySQL serveru. Na rotačním disku to běželo 10 hodin, na SSD 20 minut. Pak jsem nastavil SSD jako cache pro ten disk a protože cache byla větší než data, se kterýma pracoval ten MySQL server během testu, čekal bych výsledky blížící se běhu na SSD. Bohužel ne, běželo to 7 hodin. Zlepšení to je, ale žádná sláva.

I když teď mě napadá, jestli by tomu trochu nepomohlo zapnout na filesystému DISCARD (tj. jestli dm-cache kód nebude dělat writeback pro data, co se mají smazat.)

Quando omni flunkus moritati

19.2.2015 13:01 Max | skóre: 73 | blog: Max_Devaine
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Mně se to jako zklamání tedy nejeví. Cache neznamená 100% nahrazení původního storage, ani když je cache 100x větší jak akcelerovaný storage.
Zdar Max

Měl jsem sen ... :(

19.2.2015 13:39 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

To ano, ale mně se ji nepodařilo přinutit, aby zápisy byly nějak viditelně rychlejší než při přímém přístupu na rotační disk (writeback režim byl samozřejmě zapnutý). Nebo alespoň aby se to tak chovalo trvale a ne jen náhodou jednou za čas. Jak se zdá, nejsem sám. Narozdíl od bcache.

Z uživatelského hlediska se mi dm-cache líbí víc, hlavně proto, že bcache v podstatě nejde zrušit, jde jen odpojit cachovací SSDčko, ale stále se tam musí lézt přes /dev/bcacheX. V případě dm-cache se nechá cachovaný mód beze zbytku zrušit. Jen kdyby to skutečně fungovalo i při zápisu. Snad časem...

19.2.2015 13:47 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Mimochodem, zkoušeli jste někdo RAID co je přímo v LVM? Já včera zkoušel porovnat výkon klasického linuxového RAID1 vytvořeného pomocí mdadm a LVM RAIDu vytvořeného přes 'lvcreate --type raid1'. Při náhodném přístupu mi LVM dával asi tak poloviční IOPS, což mi oproti MD přijde docela bída. Možná jsem dělal něco špatně.

Jádro 3.17, 2x WDC WD40EFRX v RAID1.

19.2.2015 13:57 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Mimochodem, zkoušeli jste někdo RAID co je přímo v LVM?

Nikdy jsem neměl tu potřebu. Pokud si pamatuju, tak podpora RAID v DM se dodělávala až v době, když MD už existovalo a běžně se používalo - když si můžu vybrat, preferuju kód, který používá víc lidí (protože je lépe otestovaný)

Quando omni flunkus moritati

19.2.2015 14:05 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Jak se zdá, nejsem sám.

No, tam zrovna u dm-cache ukazuje docela dobré výsledky... ale možná to trochu vysvětluje ty moje

Quando omni flunkus moritati

19.2.2015 16:05 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

No dává, ale jen do zaplnění cache určené pro zápis dat. Když na filesystemu vypnul discard, tak mu šel výkon rapidně dolů (a mně taky, v podstatě na úroveň podkladového rotačního disku). Troufám si tvrdit, že v běžném provozu se data hned po zápisu na disk mazat nebudou, takže je důležité, aby se cache byla schopna ve writeback režimu nezapsaných dat zbavit dřív, než bude požadavek na další zapisování. Bcache má v tomhle směru docela hezkou samoregulaci rychlosti vyprazdňování; pokud je u dm-cache, tak jsem ji nenašel.

Když jsem si to testoval já, tak při stejných testech mi dm-cache dávalo nějakých 400 iops, zatímco s bcache jsem se běžně pohyboval mezi 1400 a 1800 iops...

19.2.2015 16:09 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Teď koukám, že vy jste měl discard vypnutý. Což by odpovídalo. Nějak mě nenapadlo, že by někdo měl SSD větší než podkladové úložiště, pak mi totiž použití takovéhle cache nedává smysl. :-)

19.2.2015 21:39 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Když na filesystemu vypnul discard, tak mu šel výkon rapidně dolů

Což to jasně, když jsou ty přístupy náhodné, tak se nedá moc čekat, že kód dm-cache dobře odhadne, co si má nechat a co ne. Vypnutý discard způsobil jenom to, že ta cache musela pracovat s backing device a projevilo se to.

No dává, ale jen do zaplnění cache určené pro zápis dat.

Zase, s náhodnými přístupy, což úplně neodpovídá reálnému provozu, kde se přece jenom k některým datům přistupuje více než k jiným.

Troufám si tvrdit, že v běžném provozu se data hned po zápisu na disk mazat nebudou, takže je důležité, aby se cache byla schopna ve writeback režimu nezapsaných dat zbavit dřív, než bude požadavek na další zapisování. Bcache má v tomhle směru docela hezkou samoregulaci rychlosti vyprazdňování; pokud je u dm-cache, tak jsem ji nenašel.

No, tady bych řekl, že už výkon s tím discardem nesouvisí. Pokud dobře chápu, tak jediné, o co mu šlo s tím vypnutým/zapnutým discard, je jaktože mají náhodné zápisy tak dobrý výkon. A závěr - protože se při formátování udělal discard, takže není potřeba při zápisu číst z backing device. Což jinak potřeba je - když se zapíší data menší než je velikost bloku v cache, musí se z backing device vytáhnout zbývající data, aby se do cache zapsal celý blok. A tak to v tom jeho testu bylo, bs=4k, nejmenší možná velikost chunksize je 32k (AFAIK)

Naopak když se data nesmažou, tak by výkon měl být jenom lepší - když se je něco pokusí číst, tak jsou k dispozici.

Na co jsme možná oba narazili, je fakt, že dm-cache se nesnaží fungovat jako cache pro všechno - v tom blogu je to dobře vysvětlené, že má zrychlovat přístup k místům, se kterými se intenzivně pracuje. Proto taky jeden zápis na nějaké místo na backing device nevyvolá zápis do cache, data jdou přímo na backing device a teprve když se na jedno místo zapisuje víckrát, dm-cache se rozhodne daný blok cachovat. Plus sekvenční zápisy úplně ignoruje.

Nějaká štelovátka tam jsou. Teď zkouším, jak se u toho sql benchmarku projeví menší bloky pro cache. Zatím to vypadá, že menší blok = (v tomhle případě) větší výkon. Doběhně to až zítra, tak můžu zkusit vynutit, aby přes dm-cache šly všechny zápisy, co to udělá.

I když je samozřejmě otázka, jestli v reálném provozu je takové nastavení lepší - přece jenom to sice urychlí zápisy, ale taky to agresivněji vytěsňuje data, což zpomaluje čtení. I když... čtení zas není takový problém, od toho jsou diskové cache v RAM...

Quando omni flunkus moritati

19.2.2015 22:30 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Na co jsme možná oba narazili, je fakt, že dm-cache se nesnaží fungovat jako cache pro všechno - v tom blogu je to dobře vysvětlené, že má zrychlovat přístup k místům, se kterými se intenzivně pracuje. Proto taky jeden zápis na nějaké místo na backing device nevyvolá zápis do cache, data jdou přímo na backing device a teprve když se na jedno místo zapisuje víckrát, dm-cache se rozhodne daný blok cachovat. Plus sekvenční zápisy úplně ignoruje.

Tak tohle by mě zajímalo - v jaké situaci může nastat stav, kdy se opakovaně mnohokrát zapisuje na stejné místo? Disky hodně vytěžují třeba databáze, ale např. u multigeneračních systémů (jako třeba Postgres nebo Firebird) se i při přepisu zapisuje na nové místo a původní se jen označí jako uvolněné. Což koneckonců bude nejspíš i případ jakékoli činnosti na COW filesystemech. Co jinak? Podle mě se tímhle přístupem musí dost zužovat pole využití, ne?

20.2.2015 01:23 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Disky hodně vytěžují třeba databáze, ale např. u multigeneračních systémů (jako třeba Postgres nebo Firebird) se i při přepisu zapisuje na nové místo a původní se jen označí jako uvolněné.

Možná to nové místo není (z pohledu polohy na disku) úplně nové? Co mi běží ten benchmark, tak zrovna dělá insert into do innodb tabulky a poměr bloků zapsaných do cache a na disk je cca 10:1 (s write_promote_adjustment 2, tj. - jestli dobře chápu - do cache se ukládají bloky, kam se zapisovalo 2 a víckrát)

Quando omni flunkus moritati

20.2.2015 08:23 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

se i při přepisu zapisuje na nové místo a původní se jen označí jako uvolněné

To není úplně celá pravda. PG může provést zápis na řádek, který byl uvolněn, aniž by mezitím musel provést vacuum. Takže v případě, že dělám update jednoho záznamu pořád dokola, tak ten update může přepisovat jen dva řádky v datovém souboru na disku a může se stát, že oba budu v jedné 8kiB stránce. Takže pro disk se budou měnit jen dva 4kiB sektory (+ samozřejmě transakční log).

Takže ssd cache to vůbec nemusí po každém zapisu commitovat až na hdd, ale jednou za čas tam stačí poslat ty dva 4kiB bloky (které se mezitím na tu cache poslaly nesčetně krát).

Což koneckonců bude nejspíš i případ jakékoli činnosti na COW filesystemech

Netudoval jsem nijak detailně vnitřnosti BTRFS, ale divil bych se, kdyby ten alokátor opravdu po každé změně na COW zvolil úplně jiný blok. Naopak bych čekal, že pokud může (pokud na ten starý blok nevede odkaz odjinud), tak bude stejně jako ta DB prohazovat nějaké dva.

Heron

20.2.2015 09:39 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

OK.

20.2.2015 11:28 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

No, tak to doběhlo, pustil jsem ten druhý test, ale mám ten pocit, že buď nechápu dokumentaci, nebo ta cache prostě funguje nějak divně.

S nastaveným write_promote_adjustment na 0 bych čekal, že se do cache uloží všechno. To se zřejmě děje, write miss (zápis na rotační disk) je nula, všechno šlo do cache. Potud dobrý.

Jenže když se podívám do iostat, tak je tam vidět řádově MB/s čtení z cache a stejně velký zápis na rotační disk - z té cache se na rotační disk intenzivně kopírují data, ten datový tok je dokonce větší, než co do té cache přichází. To by ještě mohlo bejt dobrý, řekněme, že je to writeback a že by to tak mělo fungovat. (No, přibližně, přece jenom ten stroj má hafo paměti, takže bych očekával, že writeback nebude potřebovat číst data z té cache.)

Na druhou stranu ve výpisu stavu té cache se počet dirty bloků trvale pohybuje kolem 1, což podle mě znamená, že ta cache stíhá zapisovat data, která do ní přichází, na rotační disk pod sebou. A to už je divný, protože jediný způsob, jak to stihnout, je nějak přiškrtit zápisy přicházející od aplikace. A to se podle všeho děje - přestože se všechno zapisuje do cache a je v ní dost místa, ten SQL bench běží pomalu a rozhodně se tady nevyužije rychlost toho SSD.

Quando omni flunkus moritati

20.2.2015 11:51 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

No tak přesně tohle to dělalo i mně. Počet dirty bloků byl trvale velmi nízký (byť ne nenulový) a rychlost zápisu nestála za nic. Já si to předtím interpretoval tak, že blbne detekce sekvenčních zápisů, takže to do cache zapíše vždycky jen kousek a pak se to přepne do sekvenčního módu. Možná je to tak, jak píšete vy. Nebo úplně něčím jiným. Hlavně by mě zajímalo, jestli to je bug, nebo nějaká sofistikovaná vlastnost. :-)

20.2.2015 12:40 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Já si to předtím interpretoval tak, že blbne detekce sekvenčních zápisů

To mě napadlo taky, že se do toho motá - tak jsem zvedl sequential_threshold (počet spojitých I/O potřebných pro to, aby se přenos považoval za sekvenční) z původních 512 na 65536, což by se jen tak stát nemělo. Žádná změna.

Hlavně by mě zajímalo, jestli to je bug, nebo nějaká sofistikovaná vlastnost.

Jo, to je nás víc, ale koho se zeptat... U device mapperu je to vždycky stejné - ať už se člověk pokusí využít cokoliv, začne si velice brzo připadat, že je to nějaká obskurní vlastnost, kterou na webu popisuje akorát Red Hat a jeden blogger s Ubuntu.

Quando omni flunkus moritati

4.2.2016 18:09 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Trošku jsem si teď hrál s pgbenchem a dospěl jsem k závěru, že jako čtecí cache je lvm-cache dost dobrá - selecty nad databází se po nějaké době značně zrychlí, zvlášť pokud se sequential_treshold zvýší nebo nastaví na 0. Na druhou stranu ve writeback režimu je naopak vcelku na houby, protože si podle všeho vyprazdňuje cache na hlavní disk natolik agresivně, že se celý efekt prostě stírá. Tohle má bcache ošetřené mnohem líp, tam se rychlost přenosu dat z cache na hlavní disk mění v závislosti na intenzitě zápisů. Bohužel regrese v bcachi není vyřešena ani u jádra 4.4.0, takže pokud ji chci používat, musím stále zůstávat u verze 3.12 a z toho důvodu také uvažuji o přechodu na lvm-cache... :-(

Ještě bych časem chtěl otestovat novější cache policy 'smq', kterou jádro 4.1.15-gentoo-r1, co mám na testovacím stroji, zatím neumí. Smq by měla být efektivnější, třeba se trošku zlepší i ten zápis. Takže až bude novější stabilní distribuční jádro...

20.2.2015 20:07 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Možná to je naivní otázka, ale jste si jistý, co má být smyslem takové dvojice zařízení? Pokud smyslem je, že po zrušení páru má základní zařízení obsahovat všechna data, tak přirozeně každá bariéra (nebo fsync) způsobí zapsaní všech dat z vyrovnávacího zařízení do základního zařízení. A teprve až vše je sesynchronizováno, tak kešující zařízení může přijímat další zápisové operace.

20.2.2015 20:47 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

To je nesmysl. Bariéry vám způsobí jen zápis na SSD a kdy si to systém zapíše na rotační disk je už jeho problém. Na perzistetním médiu to má, takže ztráta dat - narozdíl od stavu, kdy by to zůstávalo jen v RAMce - nehrozí. Samozřejmě za předpokladu, že se SSD či pevný disk nevysypou - proto je lepší mít ta SSDčka dvě spřažená do RAID1.

20.2.2015 22:32 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Nesmysl to není, pokud po zrušení dvojzařízení máte mít zaručeno, že na základním zařízení je vše. Je to úplně stejné jako normální cache v disku.

20.2.2015 23:37 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Jasně, ale pak je už levnější si dokoupit dostatek RAMky a cachovat do ní. Věci jako bcache, flashcache a předpokládám že i dm-cache jsou určeny pro zrychlení načítání a ukládání při náhodných přístupech na rotační disky, v podstatě suplují baterkou nebo flash pamětí zálohované řadiče. S tím, že by se za běhu bez přípravy rozpojovala obě zařízení se nepočítá.

21.2.2015 07:47 Aleš Kapica | skóre: 52 | blog: kenyho_stesky | Ostrava
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Vaše představa je mylná. Pokud (u bcache) SSD z nějakého důvodu vypadne, tak jsou data v pytli.

21.2.2015 14:32 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Přidávám se k #33 - nic takového zaručeného nemáte. Nebo přesněji - když se rozhodnete cache zrušit, vyžaduje to flush dat na ten rotační disk a jde to, akorát to chvíli trvá. Když cache zařízení provozované ve writeback režimu umře, máte smůlu.

Quando omni flunkus moritati

19.2.2015 14:15 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Proč ne? Zrovna v tomhle nadsazeném případě bych řekl, že dokud se SSD cache nezaplní daty, protože rotační úložiště pod ní nestíhá, tak by měla fungovat na téměř nativní rychlosti toho SSD +/- nějaké zápisy metadat.

Quando omni flunkus moritati

19.2.2015 16:13 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Nevím jak u dm-cache, ale u bcache je pro zápis ve výchozím stavu vyhrazeno jen 10% celkové velikosti cache, zbytek je určen pro mezipaměť při čtení dat. Poměr se nastavuje v souboru /sys/block/bcacheX/bcache/writeback_percent.

Mám pocit, že u dm-cache taky nějaké takovéhle rozdělení fungovalo.

19.2.2015 21:07 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

Kouknul jsem do /sys, ale nenašel jsem nic. Koukal jsem i do nastavení, které je vidět v dmsetup, ale také tam nic jako percent nebo ratio nevidím.

Quando omni flunkus moritati

19.2.2015 21:27 Honza Jaroš | skóre: 6 | blog: moje_strana_plotu | Bohnice
Rozbalit Rozbalit vše Re: Moje zkušenosti s bcache

V nastavení dm-cache jsem možnost to konfigurovat také nenašel. Jen jsem to nekde zachytil, ale zaboha si už nemůžu uvědomit kde. Možná si to jen špatně pamatuju.