Jaderné noviny - 19. 3. 2008

Aktuální verze jádra: 2.6.25-rc6. Citáty týdne: Evgenij Poljakov, Greg Kroah-Hartman. Obnova smazaných souborů z ext3. Obecné semafory. Návrat autoritativních háčků [authoritative hooks]. Nová infrastruktura uspávání a hibernace.

Obsah

Aktuální verze jádra: 2.6.25-rc6

V době psaní tohoto textu byl vger.kernel.org offline, důsledkem bylo mírné zpomalení vývoje. Nebo možná zpomalení řečí a zrychlení vývoje. Nicméně porucha (disk v RAID poli vgeru) je už řešena, s cílem zprovoznit vger tak rychle, jak jen to půjde.

Citáty týdne: Evgenij Poljakov, Greg Kroah-Hartman

Obnova smazaných souborů z ext3

Carlo Wood zřejmě omylem smazal svůj domovský adresář a místo toho, aby sáhnul po zálohách, začal podrobně studovat strukturu souborového systému ext3. Výsledkem je důkladný pohled na ext3, včetně toho, jak obnovit smazané soubory. Z jeho úsilí vznikl nástroj ext3grep, který vypadá docela použitelně. Tak jak tak, tohle je naprostý nesmysl. Všechny informace tam stále jsou, stejně jako ukazatele na bloky. Je jen trochu méně pravděpodobné (než na ext2), že tam stále budou, jelikož musí být obnoveny z žurnálu. K tomu všemu nejsou metadata tak souvisle spojena s reálnými daty, takže na zpětné vyhledání souborů jsou potřeba heuristické algoritmy. (z blogu Val Henson)

Obecné semafory

Většina jaderných patchů smaže nějaký kód a nahradí jej novějším a (pravděpodobně) lepším. Ve většině případů je nový kód objemnější než ten předchozí. Čas od času přesto přijde patch, který smaže přes 7600 řádků kódu a nahradí jej pouhými 314 řádky při zachování stejné funkčnosti. Patch s obecnými semafory od Matthew Wilcoxe je jedním z nich.

Semafor je v podstatě počítadlo s připojenou čekací frontou. Když chce jaderný kód přistupovat k prostředku chráněnému semaforem, zavolá:

Toto volání zkontroluje počítadlo asociované se sem; pokud je hodnota vyšší než nula, je snížena a kontrola se vrátí volajícímu kódu. Jinak je volající kód uspán, dokud se někdy v budoucnu hodnota počítadla zase nezvýší. Navyšování hodnoty (když už není chráněný zdroj více potřeba) se děje voláním up(). Semafory mohou být použity všude tam, kde je vždy potřeba horního limitu na počet procesů v určité kritické sekci. V praxi je horní limit téměř vždy nastaven na jedna, takže jsou semafory používané jako přímočará primitiva pro oboustranná vyloučení [mutual exclusion primitive].

V současných jádrech jsou semafory implementovány pomocí silně optimalizovaného kódu vázaného na architekturu - v jaderném kódu je více než dvacet na sobě nezávislých implementací semaforů. Matthewův patch je všechny vyhazuje a nahrazuje je jedinou obecnou implementací, fungující na všech architekturách. Po aplikaci patche vypadá semafor takto:

Implementace celkem jasně vyplývá z této definice: spinlock je použit na ochranu manipulací s count a wait_list pro uspávání procesů, zatímco čekají na zvýšení hodnoty count. Samotný kód je samozřejmě trochu komplikován ohledy na výkon a bezpečné chování s přerušeními, ale i přesto je poměrně krátký a jednoduchý.

Můžeme se zeptat: proč nebyly semafory takto řešeny už od začátku? Odpověď je, že za časů před 2.6.16 byly semafory jedním z hlavních mechanismů oboustranného vyloučení v jádře. Cyklus 2.6.16 pak přinesl mutexy z realtime stromu, na které přešla většina uživatelů semaforů, takže jejich kdysi tak velký význam z hlediska výkonu ztratil na své důležitosti. Důsledkem toho už není potřeba ručně vyladěný kód specifický pro jednotlivé architektury.

Další otázkou je, proč se vlastně semafory vůbec ještě používají? Počet jejich použití se od 2.6.16 výrazně zmenšil, ale pár jich v jádře ještě je. Některé z nich by určitě šly převést na mutexy, ale to vyžaduje opatrnou kontrolu toho, zda v kódu není používána počítací funkce semaforů. Po provedení kontroly se navíc může ukázat, že na některých místech byl semafor opravdu tou pravou datovou strukturou. A tak tu s námi semafory pravděpodobně zůstanou - ale budou vyžadovat o dost méně kódu než dříve.

Návrat autoritativních háčků [authoritative hooks]

Vývojáři kontejnerů mají problém, který se může zdát poměrně nekomplikovaný: rádi by z jednotlivých kontejnerů přistupovali k zařízením samostatně. S tímto přístupem by kontejnery mohly bezpečně získat přístup k danému zařízení bez ohrožení celkové bezpečnosti systému, a to i v případě, že je v kontejneru proces s právy roota, který může vytvářet nové soubory zařízení. K implementaci této vlastnosti ale vedla mnohem delší cesta, než si vývojáři představovali, protože seznam povolených zařízení [whitelist] si různé jaderné subsystémy přehazovaly jako horký brambor. Možná pro něj ale bylo nalezeno to pravé místo, což může předznamenávat změnu v budoucím rozhodování o bezpečnostních otázkách v jádře.

Originální verze patche od Pavla Emeljanova zakládala kontrolní skupinu, která spravovala přístup k zařízením v rámci kontejnerů. Vlastní pravidla a jejich vynucování bylo uloženo hluboko v subsystému modelu zařízení [device model subsystem]. Greg Kroah-Hartman namítal, že taková kontrola přístupu by měla být prováděna buď pomocí udev, nebo linuxového bezpečnostního modulu [Linux security module (LSM)]. Jelikož udev neposkytuje požadovaný stupeň kontroly a zřejmě může být problematický pro ty, kdo chtějí v kontejnerech provozovat starší distribuce, nebyla tato možnost ani vážně brána v potaz. Návrh s LSM si ale vývojáři přes malý odpor vzali k srdci.

Výsledkem byl patch pro LSM poskytující whitelist zařízení, který zaslal Serge Hallyn. Byl to zásobníkový [stacking] bezpečnostní modul, který měnil dost háčků. V ten moment přišel James Morris a navrhl, že místo tohoto řešení by whitelist měl být prostě přidán do již existujícího bezpečnostního modulu kvalifikací [capabilities] - odpadla by potřeba odděleného modulu a vše by se zjednodušilo.

Tentokrát se stížnost zjevně netýkala jen whitelistu zařízení, ale také samotného modulu kvalifikací. Vypadá to, že kvalifikace trochu špatně zapadají do celé myšlenky LSM. Samotná skutečnost, že existují, je tak trochu historickým artefaktem - někteří vývojáři je takto chtěli implementovat, aby ukázali flexibitu rozhraní LSM a možnost vynechat je z embedded konfigurací. Ale nakonec to dopadlo tak, že stejně není možné je odstranit a znamenají režii pro všechny ostatní bezpečnostní moduly.

Jádro pudla je v tom, že LSM je ve své podstatě restriktivním mechanismem. LSM háček může zakázat nějakou akci, ale nikdy nemůže dovolit procesu, aby mohl udělat něco, co by při absenci bezpečnostního modulu neměl povoleno. Rozhodnutí zamítnout "autoritativní háčky" bylo jasně uděláno v roce 2001 za účelem omezit pole působnosti LSM a zajistit, aby se samotné moduly nestaly bezpečnostními problémy.

Kvalifikace jsou ale autoritativní mechanismus - kontrola kvalifikací ověřuje existenci speciálního povolení, které by jinak neexistovalo. Whitelist zařízení je něco podobného - schvaluje přístup, který by jinak byl odepřen, což do modelu LSM moc nesedí.

Serge se pak vrátil s ještě dalším patchem, který odstraňuje kód whitelistu z frameworku LSM a místo toho vkládá oddělenou sadu háčků na relevantní místa v kódu. Tyto háčky jsou hned vedle LSM háčků, ale fungují povolovacím způsobem. Zatím se zdá. že tento přístup projde - žádní vývojáři (zatím) nemluví o jeho vykopnutí do dalšího subsystému.

Přesto se věci mohou ještě změnit - Casey Schaufler nyní mluví o vytvoření "linuxového modulu práv" ["Linux privilege module"], který by spravoval veškerá ověřování oprávnění. Mohla by tam být přesunuta jak běžná kontrola přístupu, tak kvalifikace a ověřování typu "je to root?". A samozřejmě i kód whitelistu zařízení. Nikdo proti této myšlence sice nevystoupil, na druhou stranu ale ještě nikdo neviděl žádný kód. Ale v případě, že budou věci pokračovat tímto směrem, autoritativní háčky možná po několika letech od odmítnutí z LSM konečně našly domov.

Nová infrastruktura uspávání a hibernace

Při účastech na konferencích se Jonathan Corbet už několik let hostů ptá, jestli jim na laptopech nějakým způsobem funguje uspávání a probouzení. Možnost přijít do přednáškové haly, otevřít víko a bez čekání na proběhnutí celé bootovací sekvence začít přes IRC okamžitě vyrušovat přednášejícího má přeci jen něco do sebe. Ale bez ohledu na to, zda mluvíme o uspání do paměti ("uspání") nebo uspání na disk ("hibernace"), používá tyto možnosti překvapivě málo lidí. Navzdory úsilí vyvíjenému vývojáři a distributory spoustě lidem uspání a hibernace stále zkrátka nefunguje spolehlivě.

Jonathanu Corbetovi funguje uspání vždy, ale míra úspěšnosti probuzení je asi 95 % - právě dost na to, aby jej stále používal, i když občas jej inspiruje k pořádnému množství nadávek na nevhodných místech.

Byly představeny různé přístupy, jak uspávání a hibernaci opravit, například projekty TuxOnIce a kexec jump. Další možností je zkrátka opravit kód, který je v jádře nyní. Než se tento cíl stane realitou, čeká nás ještě spousta práce, včetně stabilizace celého procesu a oddělení uspání od hibernace, což jsou, jak už Linus několikrát poměrně silně zdůrazňoval, dva rozdílné problémy. Za tímto účelem zaslal Rafael Wysocki novou infrastrukturu uspávání a hibernace pro zařízení, která má potenciál situaci zlepšit, ale za cenu vytvoření ne méně než dvaceti samostatných zpětných volání zařízení.

Pro (relativně) jednoduché uspávání do paměti existují čtyři základní zpětná volání, která by v nové struktuře pm_ops měla být poskytována každou sběrnicí a později i každým zařízením:

Při uspávání uvidí každé zařízení nejdříve volání svého zpětného volání prepare(). To je jakési varování, že přijde uspání a že by měly být provedeny všechny potřebné přípravy. To zahrnuje zabránění přidání jakýchkoliv nových podzařízení [child devices] nebo čehokoliv, co by mohlo vyžadovat účast uživatelského prostoru. V tuto chvíli by také měly být provedeny všechny podstatné alokace paměti - systém je stále funkční a pokud je to potřeba, mohou být vykonány I/O operace pro uvolnění paměti. Co by se ve stavu prepare() stát nemělo, je přepnutí zařízení do stavu s nízkou spotřebou [low-power state] - zařízení musí zůstat funkční a dostupné.

Návratová hodnota nula jako obvykle signalizuje to, že byla příprava úspěšná, záporná hodnota značí neúspěch. V případě dočasných chyb (například souběh s přidáním nového podzařízení) by zpětné volání mělo vrátit -EAGAIN, což způsobí pozdější opakování pokusu.

Později bude zavoláno suspend(), což způsobí samotné vypnutí zařízení. V současném patchi dostanou zařízení volání prepare() těsně následované voláním suspend(). To se v budoucích verzích pravděpodobně změní tak, aby všechna zařízení dostala prepare() dříve, než je kterékoliv z nich uspáno. Díky tomu bude moci i poslední volání prepare() počítat s dostupností plně funkčního systému.

Proces probouzení volá resume(), což probudí dané zařízení, obnoví jej do původního stavu a obecně jej připraví na provoz. Jakmile proběhne, je pomocí complete() uklizeno vše, co zbylo po prepare(). V případě selhání procesu uspání může být complete() zavoláno bezprostředně po prepare() (uspání neproběhne).

Proces hibernace je komplikovanější v tom, že obsahuje více přechodných stavů. Stejně jako uspání do paměti začíná zavoláním prepare(), poté jsou zavolány:

Zpětné volání freeze() je provedeno před vytvořením hibernačního obrazu [hibernation image] (obraz systému zapisovaný na stálé úložiště) - mělo by přepnout zařízení do nečinného, ale provozuschopného stavu. Po uložení hibernačního obrazu a dalším zavolání prepare() je zavoláno poweroff(), což zajistí vypnutí.

Když je systém znovu zapnut, postup se opakuje v opačném pořadí voláním:

Volání quiesce() [uklidnit se] je použito téměř na začátku procesu probouzení - po načtení hibernačního obrazu, ale před jeho použitím pro obnovení paměti hibernovaného systému. Toto zpětné volání by mělo zařízení uklidnit za účelem poskládání paměti bez poškození způsobeného činností zařízení. Následuje zavolání complete() a restore(), což by mělo navrátit zařízení do plně funkčního stavu. Poslední volání complete() celý proces zakončuje.

Tyto funkce jsou zavolány v případě, že věci nejdou podle plánu. Opět je každé z těchto volání je následováno zavoláním complete(). Cílem thaw() je vrátit zpět věci, které způsobila volání freeze() nebo quiesce() - měla by zařízení dostat zpět do funkčního stavu. Volání recover() je použito v případě, že selže vytváření nebo obnova hibernačního obrazu. Má na starosti navrácení hardwaru zpět do funkčního stavu.

Pro větší legraci existují dokonce dvě sady zpětných volání pm_ops. Jedna z nich slouží pro normální systémový provoz, ale existuje i druhá, používaná při vypnutých přerušeních a pouze jednom funkčním procesoru, tedy těsně před vypnutím nebo těsně po zapnutí systému. Interakce se zařízeními je v tomto prostředí samozřejmě odlišná, takže dávají smysl i odlišná zpětná volání. Výsledkem však je 20 nových zpětných volání kvůli plné funkčnosti uspávání a hibernace. Tato volání byla přidána do struktury bus_type:

Pole o stejných jménech byla přidána také do struktury pci_driver, což dává ovladačům možnost přidat svou vlastní verzi těchto zpětných volání. Prozatím se v případě, že nebudou poskytnuty struktury pm_ops a nebudou ještě k dispozici překonvertované ovladače, použijí zpětná volání suspend() a resume() poskytovaná starým PCI ovladačem.

V době psaní tohoto článku jsou diskuze o tomto patchi omezeny výpadkem vger.kernel.org, přesto už se objevilo pár obav a je dost pravděpodobné, že v budoucích revizích se věci ještě změní - může být například zredukován počet "no IRQ" zpětných volání. S trochou štěstí nám závěrečné řešení přinese funkční a spolehlivé uspávání a hibernaci.

Diskuse k tomuto článku

Ak by sa podarilo priniest do linuxu taku architekturu uspavania/hibernacie, ktora by fungovala aspon na 95% tak by som bol velmi stastny.. ;)

A samozrejme dakujem za preklad.. ;)

“Every great achievement was once considered impossible.”

19.5.2008 01:20 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

Mě TuxOnIce na těch 95% funguje - akorát obráceně, než je v článku. Probuzení je úspěšné vždycky, ale u hibernace je tak 5% šance, že se během ní počítač hlodne a pak už zbývá jenom Umount,Sync a reset

Quando omni flunkus moritati

19.5.2008 05:35 Nebo V. Jmeno
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

suspend2ram uz vzdavam, ale 2disk mi driv fungovalo uplne bez problemu s uswsusp (AUR), po preinstalaci systemu se mi v pri uspavani 95% sekne, napada me, jestli to neni novejsim kernelem (predtim 2.6.24, ted 2.6.25) (ntb MSI EX600X)

19.5.2008 14:49 progdan | skóre: 34 | blog: Archař | Teplice/Brno
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

Mam Arch s jadrem 2.6.25, ten samy noutbook a uspavani na disk mi funguje; primo to nativni ktere je v jadre, dokonce myslim ze jsem ani nic nekonfiguroval a jde to proste samo od sebe. Pouzivam ho celkem bezne a mam 99% uspesnost v uspani a probouzeni (coz je mimochodem vic nez u Windows ktere tu mam taky :-)

)

BTW takovej offtopic trochu: jak ti s 2.6.25kou funguje ACPI na Archu?

Collecting data is only the first step toward wisdom, but sharing data is the first step toward the community.

19.5.2008 17:57 Jakub Lucký | skóre: 40 | Praha
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

Jestli ti nefungují některé GUI apps s ACPI, tak to není chyba ale feature, protože se pomalu přechází z /proc/acpi na /sys

If you understand, things are just as they are; if you do not understand, things are just as they are.

19.5.2008 20:13 progdan | skóre: 34 | blog: Archař | Teplice/Brno
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

ee - jde vylozene o bug v jadre, ale musim uznat ze uz to funguje mnohem lip nez v 2.6.24, o 2.6.22 nemluve

Collecting data is only the first step toward wisdom, but sharing data is the first step toward the community.

19.5.2008 22:38 Jakub Lucký | skóre: 40 | Praha
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

No, mě to funguje tak mě bugísek nenapadl (docela dobře, občas blbne GNOME ukazatel jestli jsem v zásuvce nebo ne, ale zbytek se chová rozumně...)

If you understand, things are just as they are; if you do not understand, things are just as they are.

19.5.2008 20:07 changeit | Bratislava
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

od 2.6.25 (Arch linux) mi acpi nefunguje vobec (Asus F3tc)

19.5.2008 23:43 Pax
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

skusal si upgradovat bios? http://gentoo-wiki.com/HARDWARE_Asus_F3T

23.5.2008 13:18 changeit | Bratislava
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

mam 217, predtym asus dost dlho nevydaval ziadny novy bios na moj notas tak som sa na to vykaslal, ale skusim dat novy. Dik za tip

19.5.2008 07:43 ashen | blog: wheeeeeee
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

Me uspavani z vanilla ani z distribucniho(gentoo) jadra nikdy nefungovalo, tak jsem jednou skusil suspend2(nyni tuxonice) patche a od te doby notebook vypinam jen pri zmene jadra/vybiti baterie. Aby se notebook neprobudil/neuspal se mi za posledniho pul roku jeste nestalo(na starsich jadrech k tomu velmi zridka dochazelo), maximalne se mi jednou nechytla usb mys - po 'rehibernaci' uz nabehla;o)

Nvidia says no to free drivers, I say no to Nvidia

19.5.2008 13:17 Petr
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

Na OpenSUSE mi funguje uspani i probuzeni na 100 % uz nekolik let. Funguje to na notebooku i na desktopu.

funguje mi oboji velice spolehlive, nepamatuju problemy, Debian, Thinkpady R40 a R60e

20.5.2008 15:10 dayvee | skóre: 4 | Praha
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

nevim proc, ale me na debianu funguje s2disk (99,9%, problem jen jednou), ale s2ram ne (uspi se, ale uz se neprobudi) ... suspend na ram jako takovy ale funguje, pokud zmacku uspavaci tlacitko, tak se uspi a na 98% se i probudi :-)

zahada ... prave upgraduju na 2.6.25, tak schvalne jak to dopadne

debian was first announced on my 3rd birthday :)

20.5.2008 15:48 Michal Vyskočil | skóre: 60 | blog: miblog | Praha
Rozbalit Rozbalit vše Re: Jaderné noviny - 19. 3. 2008

Co zkusit nějaký hack? en.opensuse.org/S2ram a pokud nějaký zabere, tak potom poslat vývojářům informace, který to byl.

When your hammer is C++, everything begins to look like a thumb.

Prosil bych o méně "kreativity" při překladu. Věta

However, this is not necessarily true.

rozhodně neznamená

Tak jak tak, tohle je naprostý nesmysl.

1) neznám frázi "tak jak tak". Znám například "buď jak buď",ovšem výraz "however" bych v tomto kontextu přeložil spíš jako "ale" nebo "avšak".

2) "not necessarily true" určitě není "naprostý nesmysl".

Dík za práci, tohle je výborný seriál, ale není potřeba vymýšlet věci, které v původnich textech nejsou.

19.5.2008 12:08 trekker.dk | skóre: 72
Rozbalit Rozbalit vše Re: Překlad

1) neznám frázi "tak jak tak". Znám například "buď jak buď"

Co třeba "tak jako tak"?

Quando omni flunkus moritati

19.5.2008 12:12 Robert Krátký | skóre: 94 | blog: Robertův bloček
Rozbalit Rozbalit vše Re: Překlad

Já tedy nevím, jestli se špatně nedívám, ale připadá mi, že v původním textu je

However, this is utter nonsense.

nikoliv "However, this is not necessarily true."

Takže překlad "naprostý nesmysl" mi připadá úplně v pořádku. I "tak jak tak" je IMHO možné na tomto místě použít. Sám bych asi zvolil "nicméně", ale významově je to velmi blízké.

P.S. "Buď jak buď" a "tak jak tak" je v podstatě totéž.

19.5.2008 14:00 Field
Rozbalit Rozbalit vše Re: Překlad

No nevím, ale link za citátem odkazuje na blog, v němž vidím

However, this is not necessarily true. All information might still be there, also the block pointers..

Zřejmě došlo k nějakému dezinformačnímu šumu někde jinde v signálové cestě. V tom případě se autorovi překladu omlouvám, ačkoli své výhrady k sousloví "tak jak tak" mám stále :-)

19.5.2008 15:51 hydrandt | skóre: 35 | blog: Kanál | Herzogenburg
Rozbalit Rozbalit vše Re: Překlad

Chyba není ani na vašem, ani na našem přijímači - je na přijímači někoho úplně jiného ; )

Tak jak tak mi příjde úplně běžné, možná záleží na lokalitě. Ale musíte uznat, že celý ten odstavec je v původním textu na LWN hodně divně postavený - bez jakéhokoliv vysvětlení a uvedení vpálena taková záporná reakce.

Tenhle díl mi dal hodně zabrat, a i tak to díky nevelké znalosti problematiky nebyla žádná sláva. Poděkujte Robertovi za dovedení do opravdového konce. Překlad se mým koníčkem pravděpodobně nestane.

I am Jack's wasted life.