Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Aktuální verze jádra. Citáty týdne: Arnd Bergmann, Dave Chinner, Thomas Gleixner. Začleňovací okno řady 3.11, část druhá. Je celý systém nečinný?.

Obsah

Aktuální verze jádra

Začleňovací okno verze 3.11 zůstává otevřené. Přehled toho, co bylo za poslední týden začleněno, najdete níže.

Stabilní aktualizace: verze 3.8.13.4 vyšla 3. července, verze 3.6.11.6 vyšla 9. července a verze 3.5.7.16 5. července.

Citáty týdne: Arnd Bergmann, Dave Chinner, Thomas Gleixner

Když ti zkušení vývojáři řeknou, že se mýlíš, tak se musíš pokusit pochopit, v čem chyba spočívá, aby ses z ní ponaučil a neopakoval ji. Pokud děláš stejné chyby dokola, tak se správci naštvou a budou tě ignorovat (nebo ještě hůř), což není moc dobrá situace, pokud chceš, aby tvé patche byly začleněny.

Škálovatelnost už není něco, co by se řešilo až dodatečně – nové funkce systémů souborů a jádra se musí s ohledem na škálovatelnost navrhovat od počátku. Žijeme ve světě, kde i telefony mají 4 jádra procesoru.

Copy-paste je ale příhodná věc, co? Jen by to mělo mít popup, který by se ukázal při druhém kopírování té samé věci a dotázal se, jestli ses nad tím opravdu zamyslel.

Začleňovací okno řady 3.11, část druhá

V době psaní tohoto textu Linus přetáhl 8275 neslučovacích změn do hlavní řady pro vývojový cyklus 3.11. Hodně z toho jsou opět interní vylepšení a pročištění bez přímého dopadu na uživatele jádra. I tak se ale od posledního přehledu našla řada zajímavých věcí.

Je celý systém nečinný?

Funkce úplného dynamického tiku, která se objevila v jádře 3.10, může dobře posloužit uživatelům, kteří chtějí, aby jejich aplikace mohly naplno využít jedno nebo více CPU bez zásahů jádra. Odstraněním tiku se minimalizuje režie jádra a případná latence. Běh s plně dynamickým tikem má bohužel ale potenciál zvýšit spotřebu energie. Na vyřešení problému se pracuje, ale ukazuje se, že je pro to nutná informace, kterou je obtížné získat: je systém úplně v klidu, nebo ne?

Jádro má schopnost vypnout pravidelná přerušení hodin na nečinných procesorech už po mnoho let. Každý procesor, který se stane nečinným, si zkrátka vypne tik hodin; jakmile jsou všechny procesory nečinné, pak bude tik zakázán všude. Plně dynamický tik – kdy je tik možné zakázat na aktivních CPU – ale situaci komplikuje. Zatímco většina procesorů (za správných okolností) dokáže běžet bez tiku hodin, jeden procesor musí nadále mít tik povolený, aby bylo možné provádět řadu důležitých operací souvisejících s počítáním (účtováním) času. Je jasné, že toto poslední CPU by mělo být schopné zakázat svůj tik, když v systému už nic dalšího neběží, ale na současných jádrech není jak takovou situaci odhalit.

Naivní řešení člověka napadne rychle: udržovat globální čítač sledující počet nečinných CPU. Jakmile se procesor stane nečinným, pak se čítač zvýší; jakmile se zase stane aktivním, tak se sníží. Pokud počet nečinných CPU odpovídá počtu CPU v systému, pak jádro ví, že se na ničem nepracuje a i poslední CPU si může oddychnout.

Problém je ale v tom, že přetahování o cache pro tento globální čítač by na větších systémech bylo znát na výkonu. Přechody z a do nečinnosti jsou běžné při většině zátěží, takže linka cache obsahující čítač by byla v systému často přehazována. To by odstranilo jednu z výhod, proč používat dynamický tik; je pravděpodobné, že by většina lidí dala spíše přednost současné neefektivitě co do spotřeby před „řešením“ s tak vysokou režií.

Jak se dalo čekat, řešením je udržovat si pole stavů nečinnosti pro každé CPU zvlášť. Každé CPU může aktualizovat svůj stav, aniž by došlo k přetahování s jinými CPU. Naivní řešení je ale i tentokrát neadekvátní. U pole stavů je nutné procházet všemi položkami, aby se zjistil stav všech CPU. Takže nastavování stavu je sice jednoduché, ale hledání odpovědi na otázku „Je systém nečinný?“ je dosti náročné, pokud je CPU mnoho. Vzhledem k tomu, že by tato otázka byla kladena často (alespoň jednou za tik), není možné se spokojit s náročným řešením; je potřeba udělat něco jiného.

Paul to řeší tak, že kombinuje výhody obou naivních řešení. Vytváří jedinou globální proměnnou pro vyjádření nečinnosti systému a tu je jednoduché rychle přečíst. Tato proměnná se aktualizuje po přečtení stavu nečinnosti jednotlivých CPU, ale jen za specifických podmínek, při kterých se minimalizuje přetahování mezi CPU. Výsledek by měl brát to nejlepší z obou řešení za cenu opožděné detekce úplné nečinnosti systému a přidání nějakého toho složitého kódu.

Samotné procházení příznaků nečinnosti pro každé CPU se nedělá v kódu plánovače nebo údržby času, jak by člověk očekával. Místo toho (jak by mohli očekávat jiní) je Paul dal do subsystému RCU. To může vypadat zvláštně, ale dává to smysl: RCU už sleduje stav CPU v systému, kde hledá vhodné chvíle, během kterých je možné uvolnit [reclaim] datové struktury pod ochranou RCU. Sledování, jestli je každé CPU zcela neaktivní, je v kódu RCU relativně malou změnou. Výhodou navrch je to, že je u RCU snadné vyhnout se skenování všech CPU při aktivitě, takže režie údržby globální informace o nečinnosti zmizí, kdykoliv má systém něco na práci.

Samotná nečinnost systému se udržuje v globální proměnné nazvané full_sysidle_state. Časté přepisování této proměnné by znamenalo návrat problému s přetahováním se o linku cache, takže se na to jde oklikou. Kdykoliv se systém považuje za nečinný, tak si kód udržuje informaci, kdy se nečinným stalo poslední CPU. Ke změně globálního stavu dojde jedině po krátké prodlevě. Tato prodleva klesá na nulu u „malých“ strojů (tedy u těch, co nemají více než osm procesorů) a lineárně roste s růstem počtu CPU. Na velmi velkém systému musejí procesory tedy být neaktivní mnohem déle, než se v full_sysidle_state o tom objeví údaj.

Následkem je opoždění detekce úplné nečinnosti systému na větších strojích, možná o velký zlomek sekundy. Proto tik časovače poběží o něco déle, než by musel. To je zkrátka cena, kterou musí člověk při Paulově přístupu zaplatit, stejně jako to, že jeho patch přidává do srdce jádra přibližně 500 řádek kódu kvůli něčemu, co je konec konců jen aktualizace jediné celočíselné hodnoty. Ale to je prostě něco, s čím se člověk musí ve světě, kde systémy mají mnoho CPU, smířit výměnou za škálovatelnost.

Diskuse k tomuto článku

"Zatímco většina procesorů (za správných okolností) dokáže běžet bez tiku hodin"

Může mi někdo problematiky znalejší objasnit, jak tohle funguje? Měl jsem za to, že když se u procesoru vypne takt, tak už nic vykonávat nemůže, protože jsou všechny jeho pochody hnány právě taktovací frekvencí (synchronně). Nebo ten "tick" je něco jiného a procesor umí vykonávat (asi jen speciální instrukce v nějaké své vnitřní jednotce) i bez toho?

Heron

29.7.2013 14:32 nosense.cz
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Tento "tik" vůbec nesouvisí s procesorem. Jedná se o pravidelné přerušení (interrupt), které se využívá k přepnutí kontextu do jádra. Jádro se tak může rozhodnout uspat jeden proces a spustit jiný. Zajišťuje se tak multitasking a další jaderné věci.

29.7.2013 15:56 Heron | skóre: 53 | blog: root_at_heron | Olomouc
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Už to možná chápu. V článku se sice píše o CPU (hw), ale ve skutečnosti se myslí patrně běh jádra (sw) na daném cpu. Potom by to dávalo smysl. CPU (hw) by běžel na své frekvenci, ale jádro (sw; na něm) by bylo beztikové. A řeší se jak docílit toho, aby i jádro na posledním cpu mohlo být bez tiků. Jasně. Hmm. Jestli je to takto, tak je ten text teda dobrý hlavolam.

Heron

29.7.2013 16:18 logik
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

No mě to teda přišlo jasný...

29.7.2013 16:35 Václav HFechs Švirga | skóre: 26 | blog: HF | Kopřivnice
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Hehe, díky za rozepsání. Takto to vypadá logicky.

Baník pyčo!

30.7.2013 04:05 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Jo takhle to chápu taky.

Intel meltdown a = arr[x[0]&1]; karma | 帮帮我，我被锁在中国房

29.7.2013 15:00 Václav HFechs Švirga | skóre: 26 | blog: HF | Kopřivnice
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Taky by mě to zajímalo.

Baník pyčo!

29.7.2013 17:11 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Nevím, jak u x86, ale u menších procesorů jdou vypnout hodiny s tím, že se automaticky zapnou, když přijde signál od nějaké periférie (tj. přerušení)

Quando omni flunkus moritati

30.7.2013 04:04 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Instrukce HLT. Ale nevím jak dlouho trvá náběh (píšou tam o snížení napětí a vypnutí všěch hodin interně, kromě sběrnice a přerušení), takže minimálně to napětí bude chvíli trvat. Ty tiky kernelu se ale počítaj v řádu milisekund (nedynamický tik je třeba 1000HZ).

Tohle by možná mohlo být, když se třeba čeká na FIFO z UARTu.

Intel meltdown a = arr[x[0]&1]; karma | 帮帮我，我被锁在中国房

Nebylo by dobré, mít pro takové případy přímo v procesorech něco jako modul programovatelných hradel? OS by si v této oblasti mohl podle potřeby sestavit specializovaný obvod, který by takové core věci elegantně obhospodařil.

31.7.2013 01:38 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Hmm automat, co bude udržovat ten čítač nečinných procesorů a rovnou bude moct poskytnout odpověď (třeba při 1000+ jader)? To by šlo, ale hradlové pole v procesoru se mě jeví na tohle jako dost velký overkill :-D

(btw tady by to asi nebylo potřeba, ale sekvenční logika v hradlových polí nedává ani zdaleka 1GHz).

Možná by stálo za to integrovat nějaký velmi hloupý procesor, který by dělal takovýho školníka :-D

(třeba Cortex-M by ani neměl tak velkou spotřebu). Výhoda by byla ta, že by nezabíral tolik místa, byl rychlejší a pořád by byl docela dobře univerzální.

Intel meltdown a = arr[x[0]&1]; karma | 帮帮我，我被锁在中国房

31.7.2013 01:52 Mintaka
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Když by tam byla přijatelná režie na komunikaci mezi hlavním procesorem a jeho "školníkem", proč ne.

31.7.2013 02:43 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

To může být klidně se sdílenou main RAM (nebo okně do ní).

Intel meltdown a = arr[x[0]&1]; karma | 帮帮我，我被锁在中国房

1.8.2013 21:59 ebik
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

No pak si ale nedovedu představit v čem by byla výkonostní výhoda oproti zde popsanému řešení, které je složité právě proto aby se sdílená ram používala co nejméně.

2.8.2013 00:30 pc2005 | skóre: 38 | blog: GardenOfEdenConfiguration | liberec
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Tam byl problém v tom, že všechny procesory mohou tu sdílenou paměť číst i zapisovat. Servisní procesor by jen četl lokální čítače a tvořil by readonly (pro normální procesory) report. Jinak jsem ho navrhl proto, že by mohl ve zbývajícím čase dělat další věci (třeba inteligentně budit spící procesory, viděl jsem i mechanismus spekulativního provádění instrukcí pomocí hloupého jádra).

Intel meltdown a = arr[x[0]&1]; karma | 帮帮我，我被锁在中国房

2.8.2013 00:58 ebik
Rozbalit Rozbalit vše Re: Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Hmm, pokud by mohl posílat normálním procesorům interupty, aby ty normální nemusely ten "read-only report" pollovat, pak si dovedu představit, že by to mohlo chodit rychle.

Jaderné noviny – 11. 7. 2013: Další redukce tiku v jádře

Obsah

Aktuální verze jádra

Citáty týdne: Arnd Bergmann, Dave Chinner, Thomas Gleixner

Začleňovací okno řady 3.11, část druhá

Je celý systém nečinný?

Odkazy a zdroje

Další články z této rubriky

Diskuse k tomuto článku