Rizika cloud computingu (diskuse)

Zajímavý post. Jsem zvědavý na tu diplomku, doufám pak postneš link až to bude hotové.

Ad tvoje úvahy, na základě kterých dochazíš k "tvému řešení": S tím kupováním zajíce v pytli z hlediska zákazníků to není tak žhavé - oni sice nevidí "dovnitř", ale pro mnohé z nich je to spíš východa, že se nemusí starat o technické detaily a prostě jen dostanou "výsledný produkt" - a co se týče kvality produktu, tak vzhledem k tomu, že failures různých cloudů se mohutně publikují, je možné udělat si obrázek o míře rizika poměrně dobře. Když to spadlo Amazonu, tak z toho bylo velké haló, protože se to dotklo mnoha firem, ale firmy vědí, že když si to budou zajišťovat samy, tak riziko výpadku je tam taky, tomu se nedá vyhnout - a možná že u profíků typu Google nebo Amazon, keří se na tohle specializují, je to riziko přece jen menší než když si to budeme dělat sami. A že je to single point of failure je z hlediska firem spíš výhoda - když to nejede nám, ať to nejede ani konkurenci.

Uzavřenost může být pro firmy problém z hlediska hrozby vendor lock-in, ale dá se očekávat, že se časem utvoří nějaký standard, aby bylo možné přecházet mezi cloudy, je to v zájmu jejich providerů aby omezili strach firem z vendor lock-in. IBM s Amazonem uz na tom údajně pracují, četl jsem že "[a]lthough industry cloud-computing standards do not exist for APIs or data import and export, IBM and Amazon Web Services have worked together to make interoperability happen" (link). Tohle by mohlo pro firmy problém s uzavřeností řešit lépe než provoz nezávislými právními subjekty, což by mohlo přinést více problémů než užitku (kdo přebere zodpovědnost v případě problému atp.) - i když na druhou stranu je to zajímavá myšlenka a z určitého pohledu má jistě opodstatnění.

Navíc se mi zdá, že se v tom postu soustředíš na storage - ale cloud computing není jen o tom, takové věci jako možnost kupovat si výpočetní výkon (Amazon a jeho EC2) ve špičkách se pro optimalizaci nákládů přímo nabízejí - budeš se v té diplomce zabývat i tím?

Pro poutníky mezi vámi: Camino de Santiago

8.3.2009 18:33 slush | skóre: 9 | blog: slushuv_koutek
Rozbalit Rozbalit vše Re: Rizika cloud computingu

> Jsem zvědavý na tu diplomku,

Netýká se přímo cloud computingu :-) . Píšu o Toru a dalších anonymizačních sítích.

> oni sice nevidí "dovnitř", ale pro mnohé z nich je to spíš východa

Samozřejmě něco jiného je _možnost_ a _potřeba_. Souhlasím, že je dobré, že firmy nepotřebují znát technické detaily, prostě dostanou API. Na druhou stranu fakt, že nevím, jak ta technologie funguje ve mě moc důvěry nevzbuzuje. Viz případ té firmy, co ztratila 50% dat. Myslím, že v případě solidního designu té sítě se tohle prostě _nemůže_ stát.

> failures různých cloudů se mohutně publikují

Publikují se následky, ale ne příčiny. To, že Amazon tehdy a tehdy nejel vím, ale byla odstraněna příčina, aby se to příště nestalo? Myslím, že ten zajíc v pytli na tohle sedí docela trefně. Ostatně myslím, že na tomhle serveru nejsem sám, kdo má rád otevřenost :-) .

> možná že u profíků typu Google nebo Amazon, keří se na tohle specializují, je to riziko přece jen menší než když si to budeme dělat sami

Tak samozřejmě je pravděpodobné, že diskové pole Google bude spolehlivější než Frantovo Diskové Pole (tm). Jde o to, co se v globálním měřítku stane, když vypadne FDP (tm) a když Google. Z tohodle pohledu má Google mnohem větší zodpovědnost než Franta.

> problém z hlediska hrozby vendor lock-in

Správně jste postřehl, že se zajímám úzce o data storage cloudy. V téhle oblasti si zase nemyslím, že ten vendor lockin je nějak výrazně možný. Je celkem jedno, jestli se ta data nahrávají přes FTP, NFS, WebServices nebo FrantuvProtokol(tm, samozrejme), protože je velmi jednoduché realizovat abstrahující mezivrstvu.

> Tohle by mohlo pro firmy problém s uzavřeností řešit lépe než provoz nezávislými právními subjekty

Ne, tohle vůbec neřeší to, co jsem měl na mysli. Pokud bude interoperabilni standard mezi IBM a Amazonem, Vy budete mít data u Amazonu a Amazon "lehne popelem" (prostě se admini ožerou a změní hesla), IBM Vám nepomůže. Já měl na mysli vytvoření absolutně decentralizované sítě, kde když se jeden subjekt rozhodne, že ho to už "neba" a vypne servery, síť se sama zreplikuje. Stejně jako RAID...

> kdo přebere zodpovědnost v případě problému atp

Nikdo :-) . Ostatně stejně jako když se najde bezpečnostní díra v opensource serverovém OS, který ve firmě na všech strojích používáte. Vtip je v tom, že to riziko by bylo rozložené a podle designu by nemusel existovat single point of failure. Něco jiného je chyba v implementaci software, ale od toho zase máme testing, peer reviews a bezpečnostní audity, že ano.

> na druhou stranu je to zajímavá myšlenka a z určitého pohledu má jistě opodstatnění.

Dovedu si představit nějaky opensource projekt... Co jsem hledal na webu, tak jsem nenašel nic přesně takového. Samozřejmě existují implementace cloud filesystémů, ale fígl je v tom, že jsou zaměřené primárně na výkon a vzájemně si důvěřují. Ta myšlenka, kterou tady píšu je o filesystemu, kde se jednotlivé nody _podezírají_. Ani se nesnažím popírat, že ta myšlenka souvísí právě s Torem. Vyžadovalo by to samozřejmě datový i přenosový overhead, ale mohlo by to být opravdu robustní - tedy vhodné pro backupy a archivaci.

Ale kdyby někdo věděl o implementaci něčeho podobného, co tady píšu, tak určitě sem s tím.

> budeš se v té diplomce zabývat i tím?

Ne :-) , diplomka mě jen navnadila na systematické přemýšlení o těhle věcech.

8.3.2009 23:57 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Rizika cloud computingu

Nevím, jestli jste na to nenarazil, ale existuje projekt Internet Backplane Protocol, což je sada na sobě nezávislých datových úložišť, kterým uživatel apriori nevěří.

Uživatel si vybere cluster, naalokuje prostor (a trvanlivost dat) a odešle zašifrovaná data. Uživateli je vrácena trojice hashů, které slouží jako tokeny pro budoucí tři nezávislé operace – pro čtení dat, pro přepis dat a pro změnu trvanlivosti dat. Takže uživatel A může nahrát data, uživateli B předá hash pro čtení a šifrovací klíč, a uživatel B si pak může data přečíst. Vhledem k tomu, že data se šifrují na straně klientů, tak provozovatel serveru nemá šanci zjistit, co v nich je.

Dále protokol (a některá úložiště) umožňuje asynchronní přesun dat, kdy původnímu úložišti řeknete, že chcete data překopírovat na další vámi určené úložiště a „systém“ se už o to postará.

Celé to bylo vymyšleno pro pro armádní účely a vývoj si zaplatila DARPA. Takže výsledek je pod licencí BSD. Kdybyste chtěl, mám balíčky pro Gentoo (ale testoval jsem jen klientskou stranu).

9.3.2009 00:43 slush | skóre: 9 | blog: slushuv_koutek
Rozbalit Rozbalit vše Re: Rizika cloud computingu

Zajimave, zajimave! Priznam se, ze na tohle jsem pri svych soucasnych toulkach na Internetu nenarazil, ikdyz ted zpetne si uvedomuju, ze jsem o tom uz kdysi slysel. Samotna klientska strana (co jsem zatim precetl) je zhruba to, jak bych si to predstavoval. Jde o to, ze IBP zrejme neresi failover mezi jednotlivymi cloudy - tj. kdyz nahraju data na jeden depot a jeho node lehne, o data prijdu...? Budu to muset jeste kapanek vic nastudovat.

Myslim, ze ty balicky najdu nekde na Internetu. Kdyby ne, urcite se Vam ozvu. Dekuju za nabidku!

9.3.2009 11:52 petr_p | skóre: 59 | blog: pb
Rozbalit Rozbalit vše Re: Rizika cloud computingu

Je to tak. Failover mezi depoty není řešen (avšak lze snadno rozšířit popisný soubor exnode nebo vytvořit nad ním další vrstvu, která to pořeší). Failover mezi uzly jednoho depotu řešen je, nicméně klient si jej musí explicitně vyžádat a ne všechny depoty jej podporují.

9.3.2009 18:48 Ondrej 'SanTiago' Zajicek
Rozbalit Rozbalit vše Re: Rizika cloud computingu

Mimo to take distribuovane sitove datove uloziste (block-level ) vyviji Evgeniy Polyakov pod jmenem DST. Klient uz je v Linux-staging, takze by mohl byt brzy i ve vanilla jadre.

8.3.2009 21:07 slush | skóre: 9 | blog: slushuv_koutek
Rozbalit Rozbalit vše Re: Rizika cloud computingu

> se v tom postu soustředíš na storage - ale cloud computing není jen o tom, takové věci jako možnost kupovat si výpočetní výkon

Na tohle jsem zapomněl pořádně zareagovat. Hlavní důvod, proč rozebírám především storage je v tom, že u pronájmu výpočetního výkonu nevidím to riziko popisované výše. Výkon je jen tupý výkon. Když není, dá se dokoupit (silně zjednodušeně řečeno). Originální data firmy (archivy) nikoliv...