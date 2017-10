×

Upstream podpora LTS (Long Term Support) Linuxu 4.4 byla prodloužena ze 2 na 6 let. Podpora měla končit již v únoru 2018 ( Wayback Machine ), byla však prodloužena do února 2022 . Extended LTS (ELTS nebo XLTS) podpora jádra 4.4 byla oznámena minulý týden na konferenci Linaro Connect v San Franciscu. Záznam přednášky na YouTube . Dvouletá podpora je nedostačující pro výrobce mobilních telefonů s Androidem.

HP MSA P2000 G3 - jak jsme přišli o pěkný balík peněz

Produkce down

Je to už nějaký pátek, co jsem psal o nemilé příhodě s jedním HP MSA P2000G3 : HP MSA P2000 G3 - je to v háji . Mno, tentokrát jsme dopadli podobně, resp. hůř :-/.

Inu, bylo nebylo, kolem 9h (stalo se před pár týdny) měla přítelkyně telefonát, abych se vrátil z dovolené do práce. Já spal a měl u telefonu vypnuté vyzvánění a když se po 2 hodinách nedovolali, sehnali si číslo na přítelkyni.

První zpráva byla, že Oracle má problém s transakčními logy. Druhá zpráva byla, že asi odešel řadič na poli. Chvilku jsme řešili různé tipy od Oracle, zda z toho nějak vybruslit. Nakonec padlo rozhodnutí překlopit vše na backup.

Jdi už do prdele HP MSA P2000 G3

Když mám pole s duálním controllerem, tak očekávám, že tam k něčemu bude. To ale evidentně není případ HP. Když chcípnul řadič, tak se všechno zesralo. Kontrolní soubory oracle, transakční logy, db soubory a celá db chcípla a už byla nenahoditelná a neopravitelná. Dle logů prostě nebyl schopen řadič převzít rozjetou práci od chybného řadiče (chyba syncu cache atd.). Výsledkem byl nemilý čaj na takové úrovni, že to Oracle nedal. Tady uvedu menší poznámku, že provozujeme RAC (2x oracle server s jedním společným úložištěm, kde je db, servery připojeny přes FC)

To už je tedy čtvrtý incident s tímto druhem pole. Nejdříve problémy s flashnutím, kdy to nezkousnulo velký skok mezi verzemi a řadič chcípnul, což bylo popsáno až někde v KB, když člověk hledal důvod.

Další problém s tím, že problémy s diskama to hlásí jen jako "info", nikoli "warning" či "error", opakované chyby s diskama a jejich opravy pak vedly k nestabilnímu serveru. Pak tu máme incident, kdy vypadl proud a půlka disků byla GlobalSpare a support se moc nevyznamenal (KB od HP radilo neflashovat, support radil zaktualizovat fw, výsledkem byla ztráta záloh s tím, že to se prostě prý při výpadku stává). Mno a teď tohle. A to máme jen vytvořených pár volume připojených přes FC, neděláme snapshoty, replikaci, prostě nic "extra". Pravdou jen je, že máme trochu dost starý fw (celé řešení bylo dodáno jako all-in-one a na backend se moc nesahá, před předáním jsme si náhodné vyndavání řadičů zkoušeli a vždy se vše převedlo ok).

A teď k tomu ještě přibylo uzavírání HP do sebe, kdy už povětšinou není možné sosnout firmware pro zakoupený hw bez placeného supportu. Je vyžadována registrace na HP, registrace produktu, hledáním kontraktů a zadáváním do webu a ve výsledku trvá proces vydolování fw z HP delší dobu, než odstávka serveru a update fw.

Špatně nasizovaný backup storage

Mno, nakonec se ještě zjistilo, že backup storage posledních pár let vývoje jaksi nezvládá zátěž, takže některé operace byly v řádu minut. Příkladem budiž jedno nalučování, při kterém se mění primární klíč asi ve 20 tabulkách (změna primárního klíče = lock tabulky, pokud tuto akci dělá více lidí najednou a akce trvá v řádu minut, tak je problém na světě). Ano, špatně navržená db, což je dáno historií IS, postupně se věci napravují, ale spousta zákeřností zůstává. Problém ale nakonec nebyl ve výkonu storage, ale v tom, že je backup připojen přes iSCSI a to už linka nedala.

Další pešek do hrobu

Aby toho nebylo málo, tak kromě naší neplánované odstávky probíhá plánovaná denní odstávka celníků v Německu, takže docela problém se časově vejít do zbývajícího okna a dohnat zpoždění, které nastalo.

Já idiot

Nejhorší na tom je, že máme nový storage, nový server, ale kvůli pressu nebyl čas zmigrovat (není to jen migrace, ale i celkový sw upgrade + změna konceptu db). Kdybych neměl skluz v řádu měsíců, tak by to nenastalo :-/.

Čas, ten čas

Nejhorší jsou ty drbačky okolo. Chcípne primár, tak jde standby do write režimu, což je nevratná operace. Oracle začne generovat logy znovu od nových čísel. Aby se nahodila produkce, musí se udělat dump aktuálně běžící db, ten pak naimportovat do plánované produkce, která bude prozatím v režimu standby. Následně flush logů na storage, import do zamýšlené produkce (aktuálně ve standby režimu) a pak stopnout zálohu, přepnout produkci ze standby do write. Mno a když to je, tak je potřeba rozjet zase nějakou standby. Takže u aktuální produkce udělat opět dump a s ním rozjet novou standby. My máme standby dvě, jednu používám na zálohy (datapump), abych nezatěžoval produkci, druhou jako backup produkce.

Ano, jde to udělat i jinak. Tím jinak je Enterprise edice Oracle. Má to háček v podobě ceny, která je řády jinde, viz : Oracle : dostáváme na prdel (2). Ale třeba se k tomu také někdy dostaneme :). Takový funkční flashback by náš malý problém vyřešil hnedle jedle.

Výměna vadného controlleru je problém

Problém je v tom, že celé řešení bylo dodáno all-in-one a na backend moc nesahám, což se teď ukazuje jako né moc dobrá věc. Důvod je prostý milý Watsone, rozdílná verze fw mezi stávajícím zdravým controllerem a tím, co dodá support. Navíc nejde jednoduše srovnat verze jedním upgradem, protože je potřeba postupovat postupně podle major verzí (nejde moc přeskakovat). Jeden update žere 15-20min času a v našem případě bylo potřeba udělat update 3 s tím, že dodaný řadič jsem hodil do jiného storage a upgradnul jsem si u něj fw jinde. Každopádně první upgrade fw na primárním controlleru nedopadl moc dobře, byla tam asi nějaká chyba, takže jsme čekali, až doběhne timeout (pokusů bylo 20 po 2min, takže místo 15min upgrade trval první asi hodinu). Výsledkem bylo, že při první odstávce jsme nestihli okno a provedli jsme jen upgrade toho řadiče, co přežil. Při druhé odstávce jsme tam dodali i supportem dodaný řadič ve shodné verzi, ale mělo to háček, nechytily se u něj FC. Celý problém se mi podařilo nasimulovat i na druhém, shodném, storage. Tam se vyndaný a vyměněný řadič choval stejně. Nakonec jsem si na méně důležitém storage vyzkoušel, že řešením je otočit celé pole (ano, bavíme se o aktuálním fw).

Následovala další odstávka, kdy jsem na primáru otočil celé pole a FC se u vyměněného controlleru chytly, šlo u nich měnit nastavení atd.

Trochu pozitiva

Pozitivní je, že jsme přežili s nulovou ztrátou dat, backup funguje, čas překlopení zpět na produkční servery je ok, průběh taktéž ok. Příště líp naddimenzovat backup storage, líp proškolit support, aby se zlepšila odezva a bude to cajk :). Další bonus je, že jsem dostal jasný rozkaz, nedělat First Level Support a všechno přehazovat na kolegy a věnovat se vývoji, takže snad byl toto můj poslední výkřik : First level support - už mi z toho jebe.

Rekapitulace

- výpadek řadiče pole evidentně zvládá jen v případě simulovaného pádu (to jsme si zkoušeli, když nám řešení bylo dodáno)

- výpadek proudu může zapříčinit to, že se celé pole rozpadne, protože FW označí půlku disků jak Global Spare (nice featurka, doporučuji, i když možná už byla s posledním fw odebrána, nevím)

- když chcete vyměnit řadič, tak počítejte s tím, že to online nepůjde, i když manuál tvrdí opak

- upgrade fw online nezkoušejte, když jsem to dělal naposledy (z relativně nové verze na nejnovější s vypnutými VM, jen připojeným storage), tak jsem skončil na tom, že všechny volume byly odstaveny a dány do karantény (=odpojeny, nedostupné a vyndání z karantény jedině z cli)

- s pokročilými featurkami jako snapshoty, replikace atd. nemám zkušenosti, ale vzhledem k tomu, že to pole nezvládá ani základní věci, bych do toho asi nešel (navíc je tam asi jen linux s lvm, takže snapshot = smrtící nároky/pomalost)

Závěr

Nepamatuji si, že bychom někdy měli takový výpadek, ale to není ten důvod, proč jsem to sepsal. Tím důvodem je ten storage od HP a to, že co se nesere, do toho se musí sahat, protože když už se to má posrat, tak aspoň plánovaně a né neplánovaně.

Každopádně tento storage už se neprodává a dožívá, takže spíš než varování je to jen výkřik do tmy :-/.

Komentáře

